0


图解人工智能的数学基础(概率论)

🌞欢迎来到人工智能的世界
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

📆首发时间:🌹2024年10月5日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!

🙏本书是自己写的哦,因为编辑太麻烦啦,很多地方就粘贴了图片,如果需要电子版的可以私信哈。


随机事件和概率

基本概念

随机试验(E):掷一个骰子,看最后是几点。

样本点(W):每一个可能的结果,比如w1代表一点朝上。

样本空间(S):样本点的集合。

随机事件:样本空间的子集。

古典概型

加法原理

乘法原理

假设北京到上海没有直达的方案。此时的路线共有6种。

几何概型

概率

过年了,作为水果店老板的我们,一共进了三种水果,其中:

西瓜:50个

香蕉:30个

橙子:20个

为了方便顾客挑选,放在如下的格子里,每个格子放一个水果,总共 100 个。

联合概率

水果质量乘次不齐,会有少量的坏果,顾客一般从外观难以分辨。

但是作为经验老道的老板,大概知道有几个坏果,用较深的颜色统计每种水果中的坏果,从图中可以看到:

西瓜里有 10 个坏果

香蕉里有 3 个坏果

橙子里有 4 个坏果

那么顾客既选西瓜又选到坏果的概率是:

条件概率

与之前不同,顾客现在就想买颗西瓜,他选到坏果的概率是多少?

全概率

本质:原因多样,原因导致结果的概率也不同

一个村子,一共有3个小偷,分别是小数,小英,小政。求村子被偷的概率。

贝叶斯公式

本质:现在发生的事情(增加了信息)使得原来的概率发生变化。

已知村子被偷,求每个人偷的概率。


一维随机变量及其分布

​​​​​​​随机变量及其分布函数

随机变量

随机变量是指随机事件的数量表现,是可以『随机』地取不同值的『变量』。通常,用大写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。

例如X为随机变量,x1,x2,x3,xi, 是随机变量X可能的取值。

随机变量可以分为『离散型随机变量』和『连续型随机变量』:

离散型随机变量:即在一定区间内变量取值为有限个(或可数个)。掷一枚色子得到的点数为 1、2、3、4、5、6 中的一个值。

连续型随机变量(continuous random variable):即在一定区间内变量取值为无限个(或数值无法一一列举出来)。例如,一个人早上起床的具体时间点。

两种概率分布函数

概率分布函数是对统计规律的简化和抽象。下图比较两种概率分布函数——概率质量函数 PMF、概率密度函数 PDF。 白话来说,概率质量函数 PMF、概率密度函数 PDF 就是两种对样本空间概率为 1“切片、切块”、“切丝、切条”的不同方法。对于掷一枚色子来说,显然每一个概率都是。在早上 7:30 分这一刻,一毫秒都不差的,这一刻,起床的概率是多少呢,显然这个概率为0。显然研究这个点是没有意义的,但是我们可以研究7:20 到 7:40 内的起床的概率。

概率质量函数 PMF

概率质量函数是离散随机变量在特定取值上的概率。比如抛一枚色子试验,令离散随机变量 X 为色子点数。如图 所示,X 的 PMF为:

****累积分布函数 CDF:累加 ****

对于离散随机变量,累积分布函数对应概率质量函数的求和。

概率密度函数****PDF

概率密度函数(PDF)的横坐标通常代表随机变量的取值。

纵坐标代表随机变量取对应横坐标值时的概率密度。概率密度不是概率本身,它反映了随机变量在某个取值附近的密集程度。如果概率密度函数在某一点的纵坐标值较大,说明随机变量在该点附近取值的可能性相对较大;反之,如果纵坐标值较小,则随机变量在该点附近取值的可能性相对较小。

假设小张,一定会在6点到中午11点起床,并且在6点到中午11点起床是等概率的,则其概率密度函数的图像和累积分布函数的图像如下图所示:

累积分布函数****CDF


随机变量的数字特征

​​​​​​​数学期望

数学期望是试验中每次可能结果的概率乘以其结果的总和。期望是最基本的数学特征之一,反映随机变量可能值的集中位置,或者说其代表一个合理的平均值。

下面我们举个例子,假设这学期我们只考了两门课(数学,就业指导),其学分分别是(9学分,1学分),小张和小李这两门课的成绩分别是(90,60)和(60,100),如何评价谁的成绩较好呀?如果我们使用普通的平均值,显然是小李的成绩好,但是数学可是9学分哎,花费的时间也比较多显然这样是不合理的,所以我们可以使用数学期望来衡量。

​​​​​​​方差和标准差

样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。方差用来衡量随机变量与其数学期望之间的偏离程度。其计算公式如下:

比如我们要计算1,2,3,4,5的方差,首先计算出期望是3,然后计算这些数字和期望差的平方和,再除于5得到方差是2。

有时候为了后续计算的方便,会对样本进行去中心化的处理,将样本按照平均值进行平移后,此时的数学期望就变成了0。这样做的好处就是可以在不影响样本分布的情况下,简化计算。例如1-5每个数字都向负方向移动3个单位,得到-2-2的数字,计算此时的方差仍然是2。

但是有时侯,在描述两个随机变量关系的时候,比如身高的单位是m,体重的单位是kg,由于单位不同不好描述其线性相关程度,这个时候我们可以再进行标准化,统一量纲,数据转换为均值为0,标准差为1的分布。

​​​​​​​协方差

协方差用于描述不同特征之间的相关情况,计算公式如下。

​​​​​​​相关系数

相关系数等于特征标准化之后的协方差,等于只是描述特征之间的线性相关程度,相关系数越接近1说明两个变量之间的正相关程度越高,越接近1说明两个变量之间的正相关程度越高。

我们来看一个例子,下面是某班同学的身高体重:求身高和体重的相关系数热力图。说明身高和体重之间有很强的正相关。


随机变量的分布

​​​​​​​0-1分布(离散)****

在重复独立试验中,如果每次试验结果离散变量 X 仅有两个可能结果,比如 0、1,这种离散分布叫做0-1分布 。比如抛硬币,求结果是正面或者是反面的概率。正面朝上的概率是0.5,反面朝上的概率也是0.5。

​​​​​​​几何分布(离散型)

几何分布是离散型概率分布,其概率分布和数学符号如下图。

其定义为:前k-1次失败,第k次成功的概率

举个例子比如第2次抛硬币才出现正面的概率是0.25。

​​​​​​​二项分布(离散型)

二项分布是离散型概率分布,其概率分布和数学符号如下图。

如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中发生k次的概率如下。

举个例子比如抛了16次硬币,求8次正面朝上的概率。

​​​​​​​超几何分布

超几何分布是离散型概率分布,其概率分布和数学符号如下图。

举个例子比如50个产品中有15个次品,从中取出20个(不放回),其中有5件是次品的概率。

​​​​​​​松分布(离散型)****

泊松分布是离散型概率分布,其概率分布和数学符号如下图。用来表示,单位时间内,源源不断的质点来流的个数,也常用来描述稀有事件发生的次数。

举个例子,假设,某个超市每天的顾客数,满足泊松分布,求来0个人的概率,很显然,和这个参数有关,参数越大,概率越小。这个参数也叫做强度,很显然人流强度越大,有0个顾客的概率越小。

​​​​​​​均匀分布

均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,(其中,a 为数轴上较小值, b为数轴上较大值)。

举个例子,一个医生刚做完手术,说病人一定会在下面的六小时之内醒来,并且是等概率的,求其在手术后三个小时之内醒过来的概率是。答案是0.5,它等于区间长度之比。

​​​​​​​指数分布

指数分布与其他分布的最大不同之处在于,随机变量X 指的是不同独立事件发生的时间间隔值,时间越长事件发生的概率指数型增大(减小)。

举个例子,某电子设备的寿命(以小时计)服从参数为 λ=0.1的指数分布。求设备在 10 小时内失效的概率。

​​​​​​​正态分布

在概率论和统计学中,正态分布又叫高斯分布(Gaussian Distribution),其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形。

举个例子,假设考试成绩服从均值为 75,标准差为 10 的正态分布,求成绩在 90 到 100 之间的概率。

第一步:将原始成绩转换为标准正态分布下的分数。

第二步:使用标准正态分布的累积分布函数 (CDF) 计算对应 z 分数的概率。


大数定律和中心极限定理

​​​​​​​切比雪夫不等式

切比雪夫不等式用来描述任何概率分布的特性,无论这个分布是什么形状的。它帮助我们理解一个随机变量(比如,考试成绩、股票价格、工厂生产的产品重量等)有多大的可能性会落在它的平均值附近。即使我们对这个随机变量的分布几乎一无所知,只知道它的平均值和方差,切比雪夫不等式仍然可以给我们一个有用的界限。

假设有一个考试成绩的随机变量 X,它的均值(期望)为 70 分,标准差为 10 分。我们想知道有多少比例的学生成绩落在 50 分到 90 分之间。

​​​​​​​依概率收敛

其数学公式如下

举个例子,假设我们有一枚公平的硬币,每次抛硬币出现正面的概率是 0.5,出现反面的概率也是 0.5。我们想研究的是随着抛硬币次数 n的增加,正面朝上的比例会如何变化。令 Xi表示前i次抛硬币的结果是正面的比例,显然当n趋于无穷大的时候,Xn 依概率收敛与0.5。

​​​​​​​大数定理

举个例子,假设你在掷骰子,每次掷骰子的结果是从1到6的一个随机数。我们知道骰子的期望值是3.5(因为(1+2+3+4+5+6)/6=3.5)。

虽然每次掷骰子的结果可能是1、2、3、4、5或6,但如果你掷很多次,比如1000次,结果的平均值会越来越接近3.5。用数学语言来说,假设你掷了 n 次骰子,每次的结果是 X1,X2,...,Xn。切比雪夫大数定律告诉我们,当你掷的次数足够多,平均值偏离3.5的概率会变得非常小。

图中展示掷骰子的平均结果随着掷骰子次数的增加逐渐接近期望值3.5的过程。这直观地说明了切比雪夫大数定律:随着试验次数的增加,结果的平均值会越来越接近理论上的期望值。

​​​​​​​中心极限定理

中心极限定理的核心思想是:无论单个随机变量的分布是什么,只要我们取足够大的样本,样本平均值的分布就会近似正态分布。假设你在做一个实验,比如测量很多人的身高、考试成绩、或者掷骰子的结果。每次测量的结果都是随机的,而且可能有各种各样的分布。但是,如果你测量了足够多的样本,然后计算这些样本的平均值,你会发现这个平均值的分布会越来越像一个钟形曲线(也就是正态分布)。

举个例子假设你掷骰子,每次掷出的结果是从1到6的一个随机数。我们知道每次掷骰子的结果是均匀分布的,也就是说,1到6之间的每个数出现的概率都是相等的。单次掷骰子:结果是1、2、3、4、5或6,每个结果出现的概率都是1/6。这种分布不是正态分布,而是均匀分布。多次掷骰子并计算平均值:假设我们重复做10000次实验,每次实验掷骰子100次,这100次结果的平均值的分布如下图所示:


数理统计​​​​​​​

卡方分布

如果 X1,X2,…,Xn是n个相互独立的标准正态随机变量,那么这些变量的平方和:χ=X12+X22+⋯+Xn2 将服从自由度为n的卡方分布。如图所示:卡方分布的值均为正值,且呈现右偏态,随着自由度 n 的增大,卡方分布趋近于正态分布。当自由度大于 30 时,已经非常类似于正态分布。

举个例子:我们假设每个省份的身高数据已经经过标准化处理,使其符合标准正态分布,即均值为0,标准差为1,并且相互独立。这样,我们可以利用这些标准正态随机变量的平方和来说明卡方分布。这些标准正态随机变量的平方和计算出来,形成成卡方分布。

​​​​​​​t分布

一个标准正态随机变量除以独立卡方分布(调整自由度)形成t分布。

举个例子:56个省份的身高数据,假设每个省份的身高数据标准化后符合标准正态分布。这些数据的平方和将形成一个卡方分布。一个省份的身高数据:假设某个省份的身高经过标准化处理后变成一个标准正态随机变量。

​​​​​​​F分布

分布是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布。F 分布 PDF 形状随 d1和 d2变化。

举个例子:假设我们有两个组的身高数据,这些数据经过标准化处理后分别符合标准正态分布。第一组:30个省份的身高数据,标准化后符合标准正态分布。这些数据的平方和将形成一个自由度为30的卡方分布。第二组:26个省份的身高数据,标准化后符合标准正态分布。这些数据的平方和将形成一个自由度为26的卡方分布。根据F分布的定义,上述两个独立卡方分布随机变量的比值将形成F分布。


最大似然估计

根据结果反推最大概率导致这些样本结果出现的模型参数。

函数L称作最大似然函数,函数取得最大值的时候的参数就是最大似然估计取值。

标签: 人工智能

本文转载自: https://blog.csdn.net/zzqingyun/article/details/142718178
版权归原作者 卿云阁 所有, 如有侵权,请联系我们删除。

“图解人工智能的数学基础(概率论)”的评论:

还没有评论