摘要：在数据科学中，统计地位尤为显著。其在数据分析的基础上，研究如何测定、收集、整理、归纳和分析反映数据规律，以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息，给相关角色提供参照价值，做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍相关和回归，让读者最短时间掌握基本的统计知识。（本文原创，转载必须注明出处.）

如果音乐会当天预计天晴时数可能为4.3小时，请问音乐会听众人数可能会有多少人？

该场景下算法计算方法

(1) 假设最佳拟合线的方程为：$ y=ax+b$
(2)计算天晴时数和听众人数的均值：

$\vec{x}=\frac{\sum_{i}^{n}x_i}{n}=\frac{34.7}{8}=4.3375,\vec{y}=\frac{\sum_{i}^{n}y_i}{n} =\frac{311}{8}=38.875$

(3) 利用最小二乘法回归法求最佳拟合线的斜率：

$b=\frac{\sum_{i}^{n}(x_i-\vec{x})(y_i-\vec{y})}{\sum_{i}^{n}(x_i-\vec{x})^2}=\frac{122.53}{23.02}=5.32$

(4) 计算最佳拟合线的切距：$ a=\vec{y}-b\vec{x}=38.875-5.32\times4.3375=15.8$

(5) 由求得的斜率和切距得出最佳拟合线的方程：

(6)计算天晴时数和听众人数的标准差：

$s_x=\sqrt\frac{\sum_{i}^{n}{(x_i-\vec{x})^2}}{n-1}=\sqrt{\frac{23.02}{8-1}}=5.32 \\ s_y=\sqrt\frac{\sum_{i}^{n}{(y_i-\vec{y})^2}}{n-1}=\sqrt{\frac{780.875}{8-1}}=10.56$

(7) 计算相关系数：

$r=\frac{b_{s_x}}{s_y}=\frac{5.32\times1.81}{10.56}=0.91$

(8) 通过相关系数判断所求最佳拟合线与数据的拟合度并得出预测结果：

由于r接近1，说明音乐会听众人数和预计天晴时数之间有很强的正相关。换句话说，根据已有的数据，利用最佳拟合线根据预计天晴时数给出了期望音乐会听总人数的合理的良好估计。当音乐会当天预计天晴时数可能为4.3小时，利用最佳拟合线方程，那么就可估计当天音乐会听众人数大约会是3868人。

线性回归和逻辑回归

在线性回归中，结果(因变量)是连续的。它可以具有无限数量的可能值中的任何一个。在逻辑回归中，结果(因变量)只有有限数量的可能值。

例如，如果X包含房屋平方英尺的面积，并且Y包含这些房屋的相应销售价格，则可以使用线性回归来预测售价作为房屋面积的函数。虽然可能的售价可能不是实际的，但是有很多可能的值可以选择线性回归模型。

相反，如果您想根据大小来预测房屋的出售金额是否超过$ 200K，您将使用逻辑回归。可能的输出是是的，房子将卖出超过$ 200K，否则，房子不会。

统计假设检验

定义

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。假设检验的种类包括：t检验，Z检验，卡方检验，F检验等等。

假设检验过程

假设检验的过程，可以用法庭的审理来说明。先想像现在法庭上有一名被告，假设该被告是清白的，而检察官必须要提出足够的证据去证明被告的确有罪。在证明被告有罪前，被告是被假设为清白的。

假设被告清白的假设，就相当于零假设。
假设被告有罪的假设，则是备择假设。

而检察官提出的证据，是否足以确定该被告有罪，则要经过检验。这样子的检验过程就相当于用T检验或Z检验去检视研究者所搜集到的统计资料。

检验过程

在统计学的文献中，假设检验发挥了重要作用。假设检验大致有如下步骤：

最初研究假设为真相不明。
第一步是提出相关的零假设和备择假设。这是很重要的，因为错误陈述假设会导致后面的过程变得混乱。
第二步是考虑检验中对样本做出的统计假设；例如，关于独立性的假设或关于观测数据的分布的形式的假设。这个步骤也同样重要，因为无效的假设将意味着试验的结果是无效的。
决定哪个检测是合适的，并确定相关检验统计量 T。
在零假设下推导检验统计量的分布。在标准情况下应该会得出一个熟知的结果。比如检验统计量可能会符合学生t-分布或正态分布。
选择一个显著性水平 (α)，若低于这个概率阈值，就会拒绝零假设。最常用的是 5% 和 1%。
根据在零假设成立时的检验统计量T分布，找到数值最接近备择假设，且概率为显著性水平 (α)的区域，此区域称为“拒绝域”，意思是在零假设成立的前提下，落在拒绝域的概率只有α。
针对检验统计量T，根据样本计算其估计值tobs。
若估计值tobs未落在“拒绝域”，接受零假设。若估计值tobs落在“拒绝域”，拒绝零假设，接受备择假设。

应用实例

淑女品茶是一个有关假设检验的著名例子，费雪的一个女同事声称可以判断在奶茶中，是先加入茶还是先加入牛奶。费雪提议给她八杯奶茶，四杯先加茶，四杯先加牛奶，但随机排列，而女同事要说出这八杯奶茶中，哪些先加牛奶，哪些先加茶，检验统计量是确认正确的次数。零假设是女同事无法判断奶茶中的茶先加入还是牛奶先加入，备择假设为女同事有此能力。
若单纯以概率考虑（即女同事没有判断的能力）下，八杯都正确的概率为1/70，约1.4%，因此“拒绝域”为八杯的结果都正确。而测试结果为女同事八杯的结果都正确[3]，在统计上是相当显著的的结果。

参考文献

完整代码下载

源码请进【机器学习和自然语言QQ群：436303759】文件下载：

作者声明

本文版权归作者所有，旨在技术交流使用。未经作者同意禁止转载，转载后需在文章页面明显位置给出原文连接，否则相关责任自行承担。

专注人工智能领域研究

编程数学之相关与回归

相关

定义

相关性

回归

最佳拟合线预测

应用案例