">

编程数学之数据度量标准

摘要:在数据科学中,统计地位尤为显著。其在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据规律,以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍数据度量标准,让读者最短时间掌握基本的统计知识。(本文原创,转载必须注明出处.)

平均值

定义

均值是统计中的一个重要概念。为集中趋势的最常用测度值,目的是确定一组数据的均衡点。

均值的计算

将所有的数字加起来,然后除以数字的个数 。可用记为:\( \mu =\frac{ \sum_{i}^{n} x_i }{n}\)

应用实例

寒假英语兴趣班的总人数为28,总共有7个小组。知道了总的人数和总共有多少个小组,即可求出每组人数的均值。

均值的优缺点

优点: 可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以看出组与组之间的差别。

缺点: 只能应用于数值型数据,不能用于分类数据和顺序数据。


中位数

定义

中位数又称中值,统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。在 n 个数据由大到小排序后,位在中间的数字。

中位数的计算

  1. 按顺序排列数字:从最小值排列到最大值
  2. 如果有奇数n个数值,则中位数为位于中间的数值。中间数的位置为\(frac{n+1}{2}\)
  3. 如果有偶数n个数值,则将两个中间数相加,然后除以2。中间位置的算法是:\(\frac{n}{2}\)。

应用实例

有一组数据如表所示,,求出该组数据的中位数。

(1) 按顺序排列数字:从最小值排列到最大值:

19 19 19 20 20 20 20 20 20 21 21 21 145 147

(2) 统计总的个数为:3+6+3+1+1=14个

(3) 因为偶数选择算法:\( frac{n}{2}=\frac{14}{2}=7\)

(4) 找到第七个位置,则中位数是:20。(注意,计算机中下标从0开始,即寻找(7-1)的位置)

中位数的特点

一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。


众数

定义

众数指一组数据中出现次数最多的数据值。例如{2,3,3,3}中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。众数主要用于分类数据,也可用于顺序数据和数值型数据。

众数的计算

  1. 把数据中的不同类别或数值全部找出来。
  2. 写出每个数值或类别的频数。
  3. 挑出具有最高频数的一个或几个数值,得出众数。

应用实例

有一组数据:19 19 19 20 20 20 20 20 20 21 21 21 147 145,求出该组数据的中位数。

(1) 把数据中的不同类别或数值全部找出来:19,20,21,147,145。

(2) 写出每个数值或类别的频数,如表所示。

(3) 挑出具有最高频数的一个或几个数值,得出众数。观察易知是:20。总共出现6次。

扩展:如果将上面一组数字在多加3个19和3个21。则众数就变成三个即19、20和21。

众数的特点

  • 在离散概率分布中,众数是指概率质量函数有最大值的数据,也就是最容易取様到的数据。在连续概率分布中,众数是指概率密度函数有最大值的数据,也就是概率密度函数的峰值。

  • 在高斯分布(正态分布)中,众数位于峰值,和平均数、中位数相同。但若分布是高度偏斜分布,众数可能会和平均数、中位数有很大的差异。

  • 用众数代表一组数据,适合于数据量较多时使用,且众数不受极端数据的影响,并且求法简便。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合。


期望

定义

在概率论和统计学中,期望为期望值的简称,是指在一个离散型随机变量试验中每次可能结果的概率乘以其结果的总和。随机变量X的期望通常写作E(X),但有时也会写作μ,也就是均值的符号。下面是E(X)的计算式:\(E(X) =\sum{sP(X=x)}\)

应用案例

假设下表为游戏机的概率分布:

游戏机收益的期望:

游戏机收益的方差:

游戏机收益的期望:


方差

定义

形式化描述

方差:在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。量度数据分散性的一种方法,是数据与均值的距离的平方数的平值。

数学化描述

设X为服从分布F的随机变量, 如果E[X]是随机变数X的期望值(平均数μ=E[X])
随机变量X或者分布F的方差为:

计算方法

连续随机变数

如果随机变数X是连续分布,并对应至概率密度函数f(x),则其方差为:

此处\(\mu\)是一期望值,\( \mu =\int xf(x)dx\)

离散随机变数:

如果随机变数X是具有概率质量函数的离散概率分布x1 ↦ p1, …, xn ↦ pn,则:

此处 \(\mu\) 是其期望值:\( \mu =\sum _{i=1}^np_i\cdot x_i\)

特点

  • 方差不会是负的,因为次方计算为正的或为零。

标准差

定义

形式化描述:标准差,是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近 。

数学化描述:标准差 σ=方差开方

注:标准差也有可能为0,如果每个数值与均值的距离都是为0,则标准差将为0。

计算方法

  1. 计算出该组数据的均值u
  2. 再统计该组数据的个数n
  3. 利用方差的公式计算出方差
  4. 利用标准差的公式计算出标准差

标准分

定义

标准分数也叫z分数,是一种具有相等单位的量数。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。

计算公式

用公式表示为:z=(x-μ)/σ;其中z为标准分数;x为某一具体分数,μ为平均数,σ为标准差。

Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。

标准分的计算公式:z=(x-μ)/σ

特点

标准分数是一种不受原始测量单位影响的数值。其作用除了能够表明原数据在其分布中的位置外,还能对未来不能直接比较的各种不同单位的数据进行比较。如比较各个学生的成绩在班级成绩中的位置或比较某个学生在两种或多种测验中所得分数的优劣。

应用实例

例如,有两名考生的高考入学考试成绩,根据原始分数乙考生的总分是400分,而甲只有382分,按总录取则取乙生,若按标准分数录取则应录取甲,因为甲的所有成绩都不低于平均分数,而乙却在数学、外语二门学科上低于平均分数,可见把分数标准化(转换为标准分数)是有好处的。

其应用在数据预处理的数据归一化中,比如数据集中,列向量显示英语、数学等成绩。其中一个列向量可能是绩点比如3.2吧。这个3.2 与成绩 90分。根本不在一个数据量级上,这种情况下会用到标准分进行数据归一化处理。


参考文献

  1. Python官网
  2. 中文维基百科
  3. GitHub
  4. 图书:《机器学习实战》
  5. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!