摘要：在数据科学中，统计地位尤为显著。其在数据分析的基础上，研究如何测定、收集、整理、归纳和分析反映数据规律，以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息，给相关角色提供参照价值，做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍概率分布，让读者最短时间掌握基本的统计知识。（本文原创，转载必须注明出处.）

几何分布

定义

几何分布是离散型概率分布，（如图所示）。在n次伯努利试验中，试验k次才得到第一次成功的机率。

详细的说，是：前k-1次皆失败，第k次成功的概率。几何分布公式如下：$P(X=r)=q^{r-1}p$

计算公式

成功概率为p，失败概率为q，试验次数为r，则有：

第r次试验第一次成功：$ P(X=r)=pq^{r-1} $
需要试验r次以上才第一次成功：$ P(X>r)=q^{r} $
试验r次或者不到r次才第一次成功：$ P(X<r)=1-q^{r}$

几何分布的条件

进行一系列相互独立的实验。
每一次实验既有成功，又有失败的可能，且单次实验成功概率相等。
为了取得第一次成功需要进行多少次实验。

几何分布的期望

期望特点：随着x变大，累计总数和越来越接近一个特定值。$ E(X)=\frac{1}{p}$

几何分布的方差

方差特点：随着x变大，方差越来越接近特定值

$Var(X)=\frac{q}{p^2}$

应用范围

应用科学：数学以及相关领域
适用领域范围：自然数学，应用数学，高等数学，概率论
射击比赛等

二项分布

定义

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变。

计算公式

在相互独立事件中，每道题答对概率为p，答错概率为q。在n个问题中答对r个问题的概率为二项分布，表达式是$ X\sim B(n,p)$ X表示n次随机变量ξ次成功数，p表示成功的概率。计算公式：

$P(X=r)=^{n}\textrm{C}_r \times p^r \times q^{n-r},(r=0,1,...,n)$

二项分布的条件

正在进行一系列独立试验；
每次试验都可能失败和成功，每一次成功概率相同。
试验次数有限。

二项分布形状特点，如图所示

P<0.5时图形向右偏移；当p>0.5时，图形向左偏移。

优缺点

优点：在试验次数一定，求成功次数时，几何分布显示不适合的情况下，给予这类问题二项分布能更好的解决。
缺点：但是面对试验次数不固定，发生事件概率的情况下，显然几何分布与二项分布都不能解决，这里也体现出泊松分布的优势

二项分布的期望

$E(X)=np$

几何分布的方差

$Var(X)=npq,(q=1-p)$

应用范围

应用科学：数学以及相关领域
适用领域范围：自然数学，应用数学，高等数学，概率论
射击比赛等

正态分布

正态分布描述

正态分布又名高斯分布, 以德国数学家卡尔·弗里德里希·高斯的姓冠名，是一个在数学、物理及工程等领域都非常重要的概率分布，由于这个分布函数具有很多非常漂亮的性质，使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。比如图像处理中最常用的正态分布函数，下图是正态分布示意图。

若随机变量$ X $服从一个位置参数为 $ \mu$、尺度参数为$\sigma$ 的概率分布，记为：$ X\sim N(\mu ,\sigma ^{2})$,则其概率密度函数为

$f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}$

正态分布的数学期望值或期望值$ \mu$等于位置参数，决定了分布的位置；其方差$\sigma^2$ 的开平方或标准差$\sigma$ 等于尺度参数，决定了分布的幅度。

定义

正态分布概率函数密度曲线可以表示为：

$f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}$

称$X$服从正态分布，记为$X \sim N(m,s_2)$，其中$\mu$为均值，$\sigma$为标准差。标准正态分布另正态分布：$ \mu=0$,$ \sigma=1 $，公式简化为：

$f(x)={1 \over {\sqrt {2\pi }}}\,e^{-{x^{2} \over 2}}$

正态分布特点

正态分布函数密度曲线在横轴上方均数处最高。
正态分布函数密度曲线以均数为中心，左右对称。
正态分布函数密度曲线有两个参数，即均数（μ）和标准差（s）。μ是位置参数，当s固定不变时，μ越大，曲线沿横轴,越向右移动；反之，μ越小，则曲线沿横轴,越向左移动。是形状参数，当μ固定不变时，s越大，曲线越平阔；s越小，曲线越尖峭。通常用N表示均数为μ，方差为s的正态分布。用N（0，1）表示标准正态分布。
正态分布函数密度曲线下面积的总和为1。

正态分布的期望

$E(X)=\mu$

几何分布的方差

$Var(X)=\sigma^2$

正态概率计算步骤

第一步：首先确定数据是否符合正态分布，确定正态分布的均值和方差。对一些不符和正态分布的数据进行取对数或者样本重新排列称符合正态分布的标准后，在确定均值和方差。

第二步：标准化（平移，收放）：对一般正态分布进行标准化，标准化的过程为先平移，平移过程用公式表达即$ x-\mu $，再对结果进行收放，收放过程即$\frac{y}{\sigma}$，其中$y=x-\mu $ 。则标准化公式：$Z=\frac{(x-\mu)}{\sigma} $；其中Z为标准分，$X$为随机变量，$\mu$为均值，$\sigma$为标准差。

第三步：使用概率表：通过标准分，进行查表（标准正态分布概率表），得到具体的概率。

正态分布的优缺点

优点：对于社会上遇到的大部分问题，其概率分布规律基本都满足正态分布，为了计算某种概率，我们就可以通过数学建模利用正态分布方便解决问题。
缺点：无法近似估算符合几何分布的问题，无法精确解决离散数据概率。

应用场景

不适合应用场景：数据离散性太大，数据不符合正态分布特点，通过对数据进行取对数或者重新排序亦无法达到正态分布特点，无法得出均数（期望）和标准差。
适用场景：连续型数据或者数据离散性小，数据基本符合正态分布特点，或者对不符合的数据进行取对数或者样本重新排序达到正态分布特点，有具体的均数（期望）和标准差。

中心极限定理

正态分布有一个非常重要的性质：在特定条件下，大量统计独立的随机变量的平均值的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，根据这一定理的结论，其他概率分布可以用正态分布作为近似。

参数为n和 p的二项分布，在n相当大而且 p接近0.5时近似于正态分布。近似正态分布平均数为$\mu=np$，且方差为$ \sigma ^{2}=np(1-p)$
泊松分布带有参数$\lambda$ 当取样样本数很大时将近似正态分布$\lambda$ 。近似正态分布平均数为 $\mu=\lambda$ 且方差为$\sigma^2=\lambda$。