">

编程数学之相关与回归

摘要:在数据科学中,统计地位尤为显著。其在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据规律,以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍相关和回归,让读者最短时间掌握基本的统计知识。(本文原创,转载必须注明出处.)


相关

定义

在概率论和统计学中,相关或称相关系数或关联系数,显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

相关性

相关性即变量之间的数学关系,通过散点图上的点的独特构成模式,可以识别出散点图上的各种相关性。如果散点图上的点几乎呈直线分布,则相关性为线性。

  • 正线性相关:当x轴上的低端值对应y轴上的低端值,同时x轴的高端值对应y轴上的高端值且呈直线分布时,为正线性相关。即随着x增长,y也呈现增长趋势。

  • 负线性相关:当x轴上的低端值对应y轴上的高端值,同时x轴的高端值对应y轴上的低端值且呈直线分布时,为负线性相关。即随着x增长,y呈现下降趋势。

  • 不相关:如果x和y呈现一种随机模式,则我们说二者不相关。


回归

最佳拟合线预测

  1. 假设最佳拟合线的方程为:\(y=ax+b\)
  2. 计算自变量X和因变量Y的均值:

  3. 利用最小二乘法回归法求最佳拟合线的斜率:

  4. 计算最佳拟合线的切距:\( a=\vec{y}-b\vec{x}\)
  5. 由求得的斜率和切距得出最佳拟合线的方程.
  6. 计算自变量X和因变量Y的标准差:,

  7. 计算相关系数:\( r=\frac{b_{s_x}}{s_y}\)
  8. 通过相关系数判断所求最佳拟合线与数据的拟合度,规则如下:
    • 如果相关系数的绝对值越接近1,则所求最佳拟合线的拟合度越高,可用于数据预测。
    • 如果相关系数的绝对值越接近0,则所求最佳拟合线的拟合度越低,不推荐用于进行预测(预测的结果可能不准确)。

应用案例

案例定义:有一个二变量数据同时给出预计天晴时数和音乐会听众人数(其中:天晴时数表示自变量,听众人数表示因变量),如下表所示:

如果音乐会当天预计天晴时数可能为4.3小时,请问音乐会听众人数可能会有多少人?

该场景下算法计算方法

(1) 假设最佳拟合线的方程为:\( y=ax+b\)
(2)计算天晴时数和听众人数的均值:

(3) 利用最小二乘法回归法求最佳拟合线的斜率:

(4) 计算最佳拟合线的切距:\( a=\vec{y}-b\vec{x}=38.875-5.32\times4.3375=15.8\)

(5) 由求得的斜率和切距得出最佳拟合线的方程:

(6)计算天晴时数和听众人数的标准差:

(7) 计算相关系数:

(8) 通过相关系数判断所求最佳拟合线与数据的拟合度并得出预测结果:

由于r接近1,说明音乐会听众人数和预计天晴时数之间有很强的正相关。换句话说,根据已有的数据,利用最佳拟合线根据预计天晴时数给出了期望音乐会听总人数的合理的良好估计。当音乐会当天预计天晴时数可能为4.3小时,利用最佳拟合线方程,那么就可估计当天音乐会听众人数大约会是3868人。

线性回归和逻辑回归

在线性回归中,结果(因变量)是连续的。它可以具有无限数量的可能值中的任何一个。在逻辑回归中,结果(因变量)只有有限数量的可能值。

例如,如果X包含房屋平方英尺的面积,并且Y包含这些房屋的相应销售价格,则可以使用线性回归来预测售价作为房屋面积的函数。虽然可能的售价可能不是实际的,但是有很多可能的值可以选择线性回归模型。

相反,如果您想根据大小来预测房屋的出售金额是否超过$ 200K,您将使用逻辑回归。可能的输出是是的,房子将卖出超过$ 200K,否则,房子不会。


相关和回归的联系

两者区别

回归和相关都是研究两个变量相互关系的分析方法。相关分析研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供一个重要的方法。具体区别有:

  1. 相关分析中变量之间处于平等的地位;回归分析中,因变量处在被解释的地位,自变量用于预测因变量的变化;
  2. 相关分析中不必确定自变量和因变量,所涉及的变量可以都是随机变量;而回归分析则必须事先确定具有相关关系的变量中,哪个是因变量,哪个是因变量。一般来说,回归分析中因变量是随机变量,而把自变量作为研究时给定的非随机变量;
  3. 相关分析研究变量之间相关的方向和相关的程度,但相关分析不能根据一个变量的变化来推测另一个变量的变化情况;回归分析是研究变量之间相互关系的具体表现形式,根据变量之间的联系确定一个相关的数学表达式,从而可以从已知量来推测未知量。
  4. 对两个变量来说,相关分析中只能计算出一个相关系数;而回归分析中有时可以根据研究目的的不同建立两个不同的回归方程。

两者联系

相关分析与回归分析是广义相关分析的两个阶段,两者有着密切的联系 :

  1. 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。
  2. 由于相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。

统计假设检验

定义

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。

假设检验过程

假设检验的过程,可以用法庭的审理来说明。先想像现在法庭上有一名被告,假设该被告是清白的,而检察官必须要提出足够的证据去证明被告的确有罪。 在证明被告有罪前,被告是被假设为清白的。

  • 假设被告清白的假设,就相当于零假设。
  • 假设被告有罪的假设,则是备择假设。

而检察官提出的证据,是否足以确定该被告有罪,则要经过检验。 这样子的检验过程就相当于用T检验或Z检验去检视研究者所搜集到的统计资料。

检验过程

在统计学的文献中,假设检验发挥了重要作用。假设检验大致有如下步骤:

  1. 最初研究假设为真相不明。
  2. 第一步是提出相关的零假设和备择假设。这是很重要的,因为错误陈述假设会导致后面的过程变得混乱。
  3. 第二步是考虑检验中对样本做出的统计假设;例如,关于独立性的假设或关于观测数据的分布的形式的假设。这个步骤也同样重要,因为无效的假设将意味着试验的结果是无效的。
  4. 决定哪个检测是合适的,并确定相关检验统计量 T。
  5. 在零假设下推导检验统计量的分布。在标准情况下应该会得出一个熟知的结果。比如检验统计量可能会符合学生t-分布或正态分布。
  6. 选择一个显著性水平 (α),若低于这个概率阈值,就会拒绝零假设。最常用的是 5% 和 1%。
  7. 根据在零假设成立时的检验统计量T分布,找到数值最接近备择假设,且概率为显著性水平 (α)的区域,此区域称为“拒绝域”,意思是在零假设成立的前提下,落在拒绝域的概率只有α。
  8. 针对检验统计量T,根据样本计算其估计值tobs。
  9. 若估计值tobs未落在“拒绝域”,接受零假设。若估计值tobs落在“拒绝域”,拒绝零假设,接受备择假设。

应用实例

淑女品茶是一个有关假设检验的著名例子,费雪的一个女同事声称可以判断在奶茶中,是先加入茶还是先加入牛奶。费雪提议给她八杯奶茶,四杯先加茶,四杯先加牛奶,但随机排列,而女同事要说出这八杯奶茶中,哪些先加牛奶,哪些先加茶,检验统计量是确认正确的次数。零假设是女同事无法判断奶茶中的茶先加入还是牛奶先加入,备择假设为女同事有此能力。
若单纯以概率考虑(即女同事没有判断的能力)下,八杯都正确的概率为1/70,约1.4%,因此“拒绝域”为八杯的结果都正确。而测试结果为女同事八杯的结果都正确[3],在统计上是相当显著的的结果。


参考文献

  1. Python官网
  2. 中文维基百科
  3. GitHub
  4. 图书:《机器学习实战》
  5. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!