">

编程数学之事件与概率

摘要:由于基于规则方法向基于统计方法的转型,概率就显得尤为重要,诸如一些随机事件、独立假设、条件概率、完全概率等等。然后对贝叶斯模型进行案例式介绍,旨在读者深度理解。(本文原创,转载必须注明出处.)


概率论介绍

概率论概述

概率论(英语:Probability theory)是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的,然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律,两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。

概率的生活案例之六合彩

买5, 17, 19, 24, 33, 49中奖概率高还是买1,2,3,4,5,6的中奖概率高?

古典概率论说:一样。但实际上机械或彩球制造上都有些微小的差异,所以每组概率不一定完全相同,但必须累积多期开奖结果后才看得出来。

概率的生活案例之生日悖论

在一个足球场上有23个人(2×11个运动员和1个裁判员),不可思议的是,在这23人当中至少有两个人的生日是在同一天的概率要大于50%。 如果这23人都没有相同的生日也不违反概率,只是小于50%。

概率的生活案例之轮盘游戏

在游戏中玩家可能认为,在连续出现多次红色后,出现黑色的概率会越来越大。
这种判断也是错误的,即出现黑色的概率每次是相等的,因为球本身并没有“记忆”, 它不会意识到以前都发生了什么,其概率始终是 18/37。但轮盘的前后期开奖数字形成时间序列(可能存在自回归模型)。

概率的生活案例之赢取名车

赢取电视节目里的名车:在参赛者面前有三扇关闭的门,其中只有一扇后面有名车,而其余的后面是山羊。

游戏规则是,参赛者先选取一扇门,但在他打开之前,主持人在其余两扇门中打开了一扇有山羊的门, 并询问参赛者是否改变主意选择另一扇门,以使赢得名车的概率变大。

正确的分析结果是,假如不管开始哪一扇门被选,主持人都打开其余两扇门中有山羊的那一扇并询问参赛者是否改变主意, 则改变主意会使赢得汽车的概率增加一倍;(“标准”的三门问题情况。)

假如主持人只在有名车那扇门被选中时劝诱参赛者打开其它门,则改变主意必输。(资讯不对称)


事件

随机试验

随机试验的定义

我们将对自然现象的一次观察或进行一次科学试验称为试验。

随机试验的例子

举例1:硬币试验

  • E1: 抛一枚硬币,观察正(H)反(T) 面的情况。
  • E2: 将一枚硬币抛三次,观察正反面出现的情况。
  • E3: 将一枚硬币抛三次,观察出现正面的情况。
  • E4: 电话交换台一分钟内接到的呼唤次数。
  • E5: 在一批灯泡中任取一只, 测试它的寿命。

举例2:数学家去赌场

新闻:数学家3年赌赢156亿人民币,数学家在赌场里有什么优势?

令19名数学家惊喜的是,虽然他们所掌握的那些高深数学知识在现实生活中似乎派不上多大用场,但竟然出人意料地在赌场上显现出了巨大的威力!据悉,19名数学家参与的大多是赛马、赛狗以及21点之类的赌博项目。而每次下注之前,他们会利用自己所精通的专业数学方法对各种中奖的概率进行推理演算,从而研究出某种“逢赌必赢”的秘笈!因为它的形态看起来合乎理想。在现实生活中,遇到测量之类的大量连续数据时,你“正常情况下”会期望看到这种形态。

随机事件和样本空间

基本事件或单位事件

定义:在一次随机试验中可能发生的不能再细分的结果被称为基本事件,或者称为单位事件,用\( E\) 表示。

样本空间

定义:在随机试验中可能发生的所有单位事件的集合称为事件空间,用\( S\) 来表示。

例如:在一次掷骰子的随机试验中,如果用获得的点数来表示单位事件,那么一共可能出现 6 个单位事件,则事件空间可以表示为\( S={1,2,3,4,5,6} \)。

上面的事件空间是由可数有限单位事件组成,事实上还存在着由可数无限以及不可数单位事件组成的事件空间,比如在一次获得正面朝上就停止的随机掷硬币试验中,其事件空间由可数无限单位事件组成,表示为: S={正,反正,反反正,反反反正,反反反反正,···},注意到在这个例子中”反反反正”是单位事件。将两根筷子随意扔向桌面,其静止后所形成的交角假设为\(\alpha \),这个随机试验的事件空间的组成可以表示为 \( S={\alpha |0^{\circ }\leq \alpha <180^{\circ }}\)

随机事件

随机事件是事件空间\( S \)的子集,它由事件空间 \( S \)中的单位元素构成,用大写字母\( A,B,C\cdots \) 表示。例如在掷两个骰子的随机试验中,设随机事件 \( A \)= “获得的点数和大于10”,则 \( A \)可以由下面 3 个单位事件组成:\( A={(5,6),(6,5),(6,6)}}\)。

必然事件和不可能事件

如果在随机试验中事件空间中的所有可能的单位事件都发生,这个事件被称为 必然事件;相应的如果事件空间里不包含任何一个单位事件,则称为不可能事件。

事件的计算

因为事件在一定程度上是以集合的含义定义的,因此可以把集合计算方法直接应用于事件的计算,也就是说,在计算过程中,可以把事件当作集合来对待,如图所示。

在轮盘游戏中假设 \( A \)代表事件“球落在红色区域”,\( B \)代表事件”球落在黑色区域”,因为事件 \( A \)和\( B \)没有共同的单位事件,因此可表示为\( A\cap B=\varnothing \)。注意到事件\( A \) 和 \( B \) 并不是互补的关系,因为在整个事件空间 \( S \)中还有一个单位事件“零”,其即不是红色也不是黑色,而是绿色。

概率

古典概率

古典概率又叫传统概率或拉普拉斯概率,古典概率的定义是由法国数学家拉普拉斯 ( Laplace ) 提出的。如果一个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验。在拉普拉斯试验中,事件\( A \)在事件空间 \( S \)中的概率\( P(A)\) 为:

例如,在一次同时掷一个硬币和一个骰子的随机试验中,假设事件 A 为获得国徽面且点数大于 4 ,那么事件 A 的概率应该有如下计算方法: S= { ( 国徽,1 点 ),( 数字,1 点 ),( 国徽,2 点 ),( 数字,2 点 ),( 国徽,3 点 ),( 数字,3 点 ),( 国徽,4 点 ),( 数字,4 点 ),( 国徽,5 点 ),( 数字,5 点 ),( 国徽,6 点 ),( 数字,6 点 ) }, A={( 国徽,5 点 ),( 国徽,6 点 )},按照拉普拉斯定义, A 的概率为,

注意到在拉普拉斯试验中存在着若干的疑问,在现实中是否存在着其单位事件的概率具有精确相同的概率值的试验? 因为我们不知道,硬币以及骰子是否完美,即骰子制造的是否均匀,其重心是否位于正中心,以及轮盘是否倾向于某一个数字。 尽管如此,传统概率在实践中被广泛应用于确定事件的概率值,其理论根据是: 如果没有足够的论据来证明一个事件的概率大于另一个事件的概率,那么可以认为这两个事件的概率值相等。

如果仔细观察这个定义会发现拉普拉斯用概率解释了概率,定义中用了相同的可能性 ( 原文是 également possible )一词,其实指的就是”相同的概率”。这个定义也并没有说出,到底什么是概率,以及如何用数字来确定概率。在现实生活中也有一系列问题,无论如何不能用传统概率定义来解释,比如,人寿保险公司无法确定一个 50 岁的人在下一年将死去的概率。

古典概率的两个特点

  • 样本空间的元素只有有限个。
  • 实验中每个基本事件发生的可能性相同。

统计概率:大数定律

继传统概率论之后,英国逻辑学家约翰·维恩和奥地利数学家理查德提出建立在频率理论基础上的统计概率。他们认为,获得一个事件的概率值的唯一方法是通过对该事件进行 100 次,1000 次或者甚至 10000 次的前后相互独立的 n 次随机试验,针对每次试验均记录下绝对频率值 \(h_n(A)\)和相对频率值\( f_n\),随着试验次数 n 的增加,会出现如下事实,即相对频率值会趋于稳定,它在一个特定的值上下浮动,也即是说存在着一个极限值 P(A),相对频率值趋向于这个极限值。这个极限值被称为统计概率,表示为:

例如,若想知道在一次掷骰子的随机试验中获得 6 点的概率值可以对其进行 3000 次前后独立的扔掷试验(如表4-1所示),在每一次试验后记录下出现 6 点的次数,然后通过计算相对频率值可以得到趋向于某一个数的统计概率值。

上面提到的这个有关相对频率的经验规律是大数定律在现实生活中的反映,大数定律是初等概率论的基础。统计概率在今天的实践中依然具有重要意义,特别是在初等概率论及数理统计等学科中。

概率公理

  • 公理 1:事件 A 的概率 P(A) 是一个0与1之间(包含0与1)的非负实数。\( 0\leq P(A)\leq 1\ (A\in S) \)

  • 公理 2: 事件空间的概率值为 1 。\( P(S)=1\)

  • 公理 3: , 互斥事件的加法法则。这里需注意:公理3可以推广到可数个互斥事件的联集。

  • 定理 1 (互补法则):与 A 互补事件的概率始终是\( P({\bar {A}})=1-P(A),\in S \)

  • 定理 2:不可能事件的概率为零:\( P(\varnothing )=0\)

  • 定理 3:如果若干事件 \( A{1},A{2},\cdots A_{n}\in S\)每两两之间是空集关系,那么这些所有事件集合的概率等于单个事件的概率的和。

注意针对这一定理有效性的决定因素是\( A_{1}\cdots A_{n}\) 事件不能同时发生。例如,在一次掷骰子中,得到 5 点或者 6 点的概率是:

  • 定理 4:如果事件 A,B 是差集关系,则有,\( P(A\setminus B)=P(A)-P(A\cap B)\)
  • 定理 5 (任意事件加法法则):对于事件空间S 中的任意两个事件 A 和 B,有如下定理:\( P(A\cup B)=P(A)+P(B)-P(A\cap B)\)

例如,在由一共 32 张牌构成的斯卡特扑克牌中随机抽出一张,其或者是”方片”或者是” \(\mathcal {A}\) “的概率是多少?

事件 A, B 是或者的关系,且可同时发生,就是说抽出的这张牌即可以是”方片”,又可以是” \(\mathcal {A}\)”, A ∩ B ( 既发生 A 又发生 B ) 的值是 1 / 32,因此有如下结果:\( P(A\cup B)={\frac {8}{32}}+{\frac {4}{32}}-{\frac {1}{32}}={\frac {11}{32}}\)

  • 定理 6 (乘法法则):事件\(A\) ,\(B\) 同时发生的概率是:\(P(A\cap B)=P(A)\cdot P(B\vert A)=P(B)\cdot P(A\vert B)\)

公式中的\( P(A|B) \)是指在 \(B\) 条件下 \(A\) 发生的概率,又称作条件概率。回到上面的斯卡特游戏中,在 32 张牌中随机抽出一张,即是方片又是 \(\mathcal {A}\)的概率是多少呢?现用 P(A) 代表抽出方片的概率,用P(B) 代表抽出 \(\mathcal {A}\)的概率,很明显, A, B 之间有一定联系,即 A 里包含有 B, B 里又包含有 A,在 A 的条件下发生 B 的概率是 P(B | A)=1/8,则有:
\( P(A\cap B)=P(A)\cdot P(B\vert A)={\frac {8}{32}}\cdot {\frac {1}{8}}={\frac {1}{32}}\)

或者,
\( P(A\cap B)=P(B)\cdot P(A\vert B)={\frac {4}{32}}\cdot {\frac {1}{4}}={\frac {1}{32}}\)

从上面的图中也可以看出,符合条件的只有一张牌,即方片 \(\mathcal {A}\) 。另一个例子,在 32 张斯卡特牌里连续抽两张 ( 第一次抽出的牌不放回去 ),连续得到两个 \(\mathcal {A}\)的概率是多少呢?

设 A, B 分别为连续发生的这两次事件,我们看到, A, B 之间有一定联系,即 B 的概率由于 A 发生了变化,属于条件概率,按照公式有:

  • 定理 7 (无关事件乘法法则):两个不相关联的事件 A, B 同时发生的概率是:

注意到这个定理实际上是定理 6 (乘法法则) 的特殊情况,如果事件 A, B 没有联系,则有 P(A|B)=P(A),以及 P(B|A)=P(B)。现在观察一下轮盘游戏中两次连续的旋转过程, P(A) 代表第一次出现红色的概率,P(B) 代表第二次出现红色的概率,可以看出, A 与 B 没有关联,利用上面提到的公式,连续两次出现红色的概率为:


条件概率和全概率

条件概率

条件概率的描述

设试验E的样本空间为S, 事件包括A,B, 要考虑在A已经发生的条件下B发生的概率, 这就是条件概率问题。

条件概率的定义

设A,B是两个事件,且P(A)>0,称:\( P(A|B)=\frac{P(AB)}{P(A)}\)(AB不独立)

设A,B是两个事件,且P(A)>0,称:\( P(A|B)=P(A)\)(AB独立)

条件概率的性质

性质1:对于每一个事件B,有:\( 0 \leqslant P(B|A)\leqslant 1\)

性质2:\( P(S|A)=1\)

性质3. 设\( B_1,B_2,…,B_n\)两两互不相容,则 \( P(UB_i|A)=\sum P(B_i|A)\)

条件概率的计算方法

  • 公式法:

先计算\( P(A)\) ,\( P(AB)\) ,然后按公式计算\( P(B|A)=P(AB)/P(A)\)

  • 图解法:利用概率树求解

例如: 图圈饼店正在调查客户购买圈饼和咖啡的概率,下面是一些线索,画出概率树并求解相应概率(如图所示)。以下是已知条件:

  • P(圈饼) = 3/4
  • P(咖啡|圈饼’) = 1/3
  • P(圈饼∩咖啡) = 9/20

计算过程:

P(咖啡|圈饼) = P(圈饼∩咖啡) / P(圈饼) = 3/5

P(咖啡|圈饼) = P(圈饼∩咖啡) / P(圈饼) = 1/3

P(咖啡|圈饼) = P(圈饼∩咖啡) / P(圈饼) = 2/5

P(咖啡|圈饼) = P(圈饼∩咖啡) / P(圈饼) = 2/3

使用概率树求解问题的优缺点:

  • 优点: 能够以图形体现条件概率,同时帮助计算概率,利用分支结构,条理清楚,不易算错。
  • 不足: 画概率树很浪费时间。

完全概率

概念介绍

n 个事件\( H_1,H_2,…H_n\) 互相间独立,且共同组成整个事件空间 S,即\( H_i\cap H_j=\varnothing , (i\neq j)\)
以及\( H_1\cup H_2\cup …\cup H_n=S\),这时 A 的概率可以表示为,

举例解析

例如,一个随机试验工具由一个骰子和一个柜子中的三个抽屉组成,抽屉 1 里有 14 个白球和 6 个黑球,抽屉 2 里有 2 个白球和 8 个黑球,抽屉 3 里有 3 个白球和 7 个黑球,试验规则是首先掷骰子,如果获得小于 4 点,则抽屉 1 被选择,如果获得 4 点或者 5 点,则抽屉 2 被选择,其他情况选择抽屉 3 。然后在选择的抽屉里随机抽出一个球,最后抽出的这个球是白球的概率是:

从例子中可看出,完全概率特别适合于分析具有多层结构的随机试验的情况。


贝叶斯定理

贝叶斯公式

贝叶斯定理由英国数学家托马斯·贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照定理 6 的乘法法则,P(A∩B)=P(A)·P(B|A)=P(B)·P(A|B),可以立刻导出贝叶斯定理:

案例1:狗叫抓贼

例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?

我们假设 A 事件为狗在晚上叫, B 为盗贼入侵,则\( P(A)=3/7,P(B)=2/(20·365.25)=2/7305,P(A | B) = 0.9\)
按照公式很容易得出结果:\( P(B\vert A)=0.9\cdot {\frac {2}{7305}}\cdot {\frac {7}{3}}=0.0005749486653…\)

案例2:追踪红球

现分别有 A, B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?

假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:\( P(B) = 8 / 20, P(A) = 1 / 2, P(B|A) = 7 / 10\)
按照公式,则有:\( P(A\vert B)={\frac {7}{10}}\cdot {\frac {1}{2}}\cdot {\frac {20}{8}}={\frac {7}{8}}\)


参考文献

  1. Python官网
  2. 中文维基百科
  3. GitHub
  4. 图书:《机器学习实战》
  5. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!