">

编程数学之概率分布

摘要:在数据科学中,统计地位尤为显著。其在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据规律,以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍概率分布,让读者最短时间掌握基本的统计知识。(本文原创,转载必须注明出处.)

几何分布

定义

几何分布是离散型概率分布,(如图所示)。在n次伯努利试验中,试验k次才得到第一次成功的机率。

详细的说,是:前k-1次皆失败,第k次成功的概率。几何分布公式如下:\(P(X=r)=q^{r-1}p\)

计算公式

成功概率为p,失败概率为q,试验次数为r,则有:

  1. 第r次试验第一次成功:\( P(X=r)=pq^{r-1} \)
  2. 需要试验r次以上才第一次成功:\( P(X>r)=q^{r} \)
  3. 试验r次或者不到r次才第一次成功:\( P(X<r)=1-q^{r}\)

几何分布的条件

  1. 进行一系列相互独立的实验。
  2. 每一次实验既有成功,又有失败的可能,且单次实验成功概率相等。
  3. 为了取得第一次成功需要进行多少次实验。

几何分布的期望

期望特点:随着x变大,累计总数和越来越接近一个特定值。\( E(X)=\frac{1}{p}\)

几何分布的方差

方差特点:随着x变大,方差越来越接近特定值

应用范围

  • 应用科学:数学以及相关领域
  • 适用领域范围:自然数学,应用数学,高等数学,概率论
  • 射击比赛等

二项分布

定义

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。

计算公式

在相互独立事件中,每道题答对概率为p,答错概率为q。在n个问题中答对r个问题的概率为二项分布,表达式是\( X\sim B(n,p)\) X表示n次随机变量ξ次成功数,p表示成功的概率。计算公式:

二项分布的条件

  1. 正在进行一系列独立试验;
  2. 每次试验都可能失败和成功,每一次成功概率相同。
  3. 试验次数有限。

二项分布形状特点,如图所示

P<0.5时图形向右偏移;当p>0.5时,图形向左偏移。

优缺点

  • 优点:在试验次数一定,求成功次数时,几何分布显示不适合的情况下,给予这类问题二项分布能更好的解决。
  • 缺点:但是面对试验次数不固定,发生事件概率的情况下,显然几何分布与二项分布都不能解决,这里也体现出泊松分布的优势

二项分布的期望

几何分布的方差

应用范围

  • 应用科学:数学以及相关领域
  • 适用领域范围:自然数学,应用数学,高等数学,概率论
  • 射击比赛等

正态分布

正态分布描述

正态分布又名高斯分布, 以德国数学家卡尔·弗里德里希·高斯的姓冠名,是一个在数学、物理及工程等领域都非常重要的概率分布,由于这个分布函数具有很多非常漂亮的性质,使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。比如图像处理中最常用的正态分布函数,下图是正态分布示意图。

若随机变量\( X \)服从一个位置参数为 \( \mu\)、尺度参数为\(\sigma\) 的概率分布,记为:\( X\sim N(\mu ,\sigma ^{2})\),则其概率密度函数为

正态分布的数学期望值或期望值\( \mu\)等于位置参数,决定了分布的位置;其方差\(\sigma^2\) 的开平方或标准差\(\sigma\) 等于尺度参数,决定了分布的幅度。

定义

正态分布概率函数密度曲线可以表示为:

称\(X\)服从正态分布,记为\(X \sim N(m,s_2)\),其中\(\mu\)为均值,\(\sigma\)为标准差。标准正态分布另正态分布:\( \mu=0\),\( \sigma=1 \),公式简化为:

正态分布特点

  • 正态分布函数密度曲线在横轴上方均数处最高。
  • 正态分布函数密度曲线以均数为中心,左右对称。
  • 正态分布函数密度曲线有两个参数,即均数(μ)和标准差(s)。μ是位置参数,当s固定不变时,μ越大,曲线沿横轴,越向右移动;反之,μ越小,则曲线沿横轴,越向左移动。是形状参数,当μ固定不变时,s越大,曲线越平阔;s越小,曲线越尖峭。通常用N表示均数为μ,方差为s的正态分布。用N(0,1)表示标准正态分布。
  • 正态分布函数密度曲线下面积的总和为1。

正态分布的期望

几何分布的方差

正态概率计算步骤

第一步:首先确定数据是否符合正态分布,确定正态分布的均值和方差。对一些不符和正态分布的数据进行取对数或者样本重新排列称符合正态分布的标准后,在确定均值和方差。

第二步:标准化(平移,收放):对一般正态分布进行标准化,标准化的过程为先平移,平移过程用公式表达即\( x-\mu \),再对结果进行收放,收放过程即\(\frac{y}{\sigma}\),其中\(y=x-\mu \) 。则标准化公式:\(Z=\frac{(x-\mu)}{\sigma} \);其中Z为标准分,\(X\)为随机变量,\(\mu\)为均值,\(\sigma\)为标准差。

第三步:使用概率表:通过标准分,进行查表(标准正态分布概率表),得到具体的概率。

正态分布的优缺点

  • 优点:对于社会上遇到的大部分问题,其概率分布规律基本都满足正态分布,为了计算某种概率,我们就可以通过数学建模利用正态分布方便解决问题。
  • 缺点:无法近似估算符合几何分布的问题,无法精确解决离散数据概率。

应用场景

  • 不适合应用场景: 数据离散性太大,数据不符合正态分布特点,通过对数据进行取对数或者重新排序亦无法达到正态分布特点,无法得出均数(期望)和标准差。
  • 适用场景:连续型数据或者数据离散性小,数据基本符合正态分布特点,或者对不符合的数据进行取对数或者样本重新排序达到正态分布特点,有具体的均数(期望)和标准差。

中心极限定理

正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。

  • 参数为n和 p的二项分布,在n相当大而且 p接近0.5时近似于正态分布。近似正态分布平均数为\(\mu=np\),且方差为\( \sigma ^{2}=np(1-p)\)
  • 泊松分布带有参数\(\lambda\) 当取样样本数很大时将近似正态分布\(\lambda\) 。近似正态分布平均数为 \(\mu=\lambda\) 且方差为\(\sigma^2=\lambda\)。

泊松分布

定义

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。泊松分布的概率质量函数为:

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

计算公式

X服从参数为\(\lambda\)的泊松分布,记为\( X\sim P(\lambda )\)。单独事件在给定区间随机独立发生,已知事件平均发生数且有限次数,通过以下计算:

泊松分布的条件

  1. 单独事件在给定区间内随机独立的发生,给定区别可以是时间或者空间。(一周、一英里)
  2. 已知该区间内的事件平均发生次数(发生率),且为有限数值。该事件平均发生次数用λ表示。

泊松分布形状特点

  • 不需要一系列试验,描述事件特定区间发生次数。
  • 两个独立的泊松分布相加也符合泊松分布。(即n>50且p<0.1时或np近似等于npq时)。
  • 特定条件下可以用来近似代替二项分布。

泊松分布形状特点:λ小时,分布向右偏斜;当λ大时,分布逐渐对称。

优缺点

不需要一系列试验,描述事件特定区间发生次数,特别适用。另外一定条件下替换二项分布带来简便的运算。

泊松分布与二项分布关系

当二项分布X~B(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1,np<=5时,就可以用泊松公式近似得计算,X可以近似表示X~Po(np)。

问题:为什么n要足够大,p要足够小?

因为在分时间窗口的时候有个假设:每个时间窗口最多只有一个乘客到达。(时间区间乘客问题)

泊松分布的期望

几何分布的方差

应用范围

  • 用学科:概率论
  • 某一服务设施在一定时间内到达人数,电话交换机接到呼叫的次数,汽车站台的侯客人数,机器出现的故障次数,自然灾害发生次数,一块产品的缺陷,显微镜下单位分区内的细菌分布数等。
  • 在交通工程的应用、非典流行与传播服从泊松分布
  • 自然现象普遍存在泊松分布现象,主要指大量重复实验中稀有事件发生的次数。

参考文献

  1. Python官网
  2. 中文维基百科
  3. GitHub
  4. 图书:《机器学习实战》
  5. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!