">

编程数学之图形可视化分析

摘要:在数据科学中,统计地位尤为显著。其在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据规律,以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍常见的图形可视化的概念和使用,使读者最短时间掌握基本的统计知识。(本文原创,转载必须注明出处.)


饼图

定义

饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块(圆弧)表示该分类占总体的比例大小,所有区块(圆弧)的加和等于 100%。

饼图的优缺点

  • 优点:饼图可以很好地帮助用户快速了解数据的占比分配

  • 缺点:

    • 饼图不适用于多分类的数据,原则上一张饼图不可多于 9 个分类,因为随着分类的增多,每个切片就会变小,最后导致大小区分不明显,每个切片看上去都差不多大小,这样对于数据的对比是没有什么意义的。所以饼图不适合用于数据量大且分类很多的场景。
    • 相比于具备同样功能的其他图表(比如百分比柱状图、环图),饼图需要占据更大的画布空间。
    • 很难进行多个饼图之间的数值比较。

应用场景

适合的场景

  • 展示2个分类的占比情况。比如一个班级的男女生的占比情况。
  • 多个但不超过 9 个分类的占比情况。比如一个游戏公司的销售情况。

不适合的场景

  • 分类过多的场景。比如各个省的人口的占比情况,很难清晰对比各个省份的人口数据占比情况,所以这种情况下,我们推荐使用横向柱状图。
  • 分类占比差别不明显的场景,比如游戏公司的不同种类的游戏的销售量相近,所以不太适合使用饼图,此时可以使用柱状图来呈现。

饼图与其他图表的对比

饼图和柱状图

  • 饼图主要是展示分类之间的占比情况。
  • 而柱状图主要展示各个分类数量、大小的对比。

饼图示意图

某站点用户访问来源饼状图统计, 如下图所示:


条形图

定义

典型的条形图(又名柱状图),使用垂直或水平的柱子显示类别之间的数值比较。其中一个轴表示需要对比的分类维度,另一个轴代表相应的数值。

柱状图有别于直方图,柱状图无法显示数据在一个区间内的连续变化趋势。柱状图描述的是分类数据,回答的是每一个分类中“有多少?”这个问题。 需要注意的是,当柱状图显示的分类很多时会导致分类名层叠等显示问题,下面我们会举例说明。

条形图的优缺点

  • 优点: 可以很清晰的看出每个类的总和和各个属性的比例。

  • 缺点: 不容易看出各个属性的频数。

应用场景

适合的场景

  • 适合应用到分类数据对比。比如一个游戏销量的图表,展示不同游戏类型的销量对比

不适合的场景

  • 分类太多不适合使用纵向柱状图。如对比不同省份的人口数量。分类情况过多时,柱状图的文本为了排布合理,需要进行旋转,不利于阅读,相比于纵向柱状图,横向柱状图更适用于此类分类较多的场景。
  • 不适合表示趋势 柱状图使用矩形的长度(宽度)来对比分类数据的大小,非常方便临近的数据进行大小的对比,不适合展示连续数据的趋势。比如展示 ACME 这只股票在 2015 年 9 月份整个月的每日的价格走势,但是效果不尽人意。

条形图与其他图表的对比

柱状图和折线图、饼图

  • 柱状图主要用于多个分类间的数据(大小、数值)的对比
  • 折线图主要用于展示连续数值(例如时间)或者有序分类的变化趋势
  • 饼图主要是展示分类之间的占比情况

条形图示意图

  • 水平条形图:世界人口总量条形图统计,如下所示:

  • 垂直条形图:某地区蒸发量和降水量统计,如下图所示:

  • 堆叠条形图:某站点用户访问统计,如下图所示:


热力图

定义

热力图(Heat Map),“热力图”一词最初是由软件设计师Cormac Kinney于1991年提出并创造的,用来描述一个2D显示实时金融市场信息。最开始的热力图,是矩形色块加上颜色编码。经过多年的演化,习语上的热力图,如今更规范,更被大多数人理解的是这种经过平滑模糊过的热力图谱。

热力图的特点

  • 热力图尤其关注分布。
  • 热力图可以不需要坐标轴,其背景常常是图片或地图。
  • 热力图一般情况用其专有的色系彩虹色系(rainbow)
  • 热力图能告诉你,页面的哪些部分吸引了大多数访客的注意。
  • 热力图可以直观清楚地看到页面上每一个区域的访客兴趣焦点。

热力图应用场景

适合的场景

  • 连续数值数据分布。城市房租热力图,用于显示城市房租价格分布。
  • 数据的统计预测。钻石克拉数和价格的关系。通过已有的钻石数据,对未知区域的钻石数据进行预测。

热力图示意图

笛卡尔坐标系上的热力图,如下所示:


折线图

定义

折线图用于显示数据在一个连续的时间间隔或者时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势。在折线图中,数据是递增还是递减、增减的速率、增减的规律(周期性、螺旋性等)、峰值等特征都可以清晰地反映出来。所以,折线图常用来分析数据随时间的变化趋势,也可用来分析多组数据随时间变化的相互作用和相互影响。例如可用来分析某类商品或是某几类相关的商品随时间变化的销售情况,从而进一步预测未来的销售情况。在折线图中,一般水平轴(X轴)用来表示时间的推移,并且间隔相同;而垂直轴(Y轴)代表不同时刻的数据的大小。

折线图应用场景

如果分类标签是文本并且代表均匀分布的数值(如月、季度或财政年度),则应该使用折线图。当有多个系列时,尤其适合使用折线图 — 对于一个系列,应该考虑使用类别图。如果有几个均匀分布的数值标签(尤其是年),也应该使用折线图。如果拥有的数值标签多于十个,请改用散点图。另外,折线图是支持多数据进行对比的。

适合的场景

  • 有序的因变量,比如:时间。某监控系统的折线图表,显示了请求次数和响应时间随时间的变化趋势。
  • 不同月份的温度

不适合的场景

  • 当水平轴的数据类型为无序的分类或者垂直轴的数据类型为连续时间时,不适合使用折线图。
  • 当折线的条数过多时不建议将多条线绘制在一张图上,下图展示了多台机器(实例)的资源占用情况

折线图与其他图表的对比

折线图和柱状图

  • 柱状图主要用于多个分类间的数据(大小、数量)的对比,折线图主要用于时间或者连续数据上的趋势。
  • 分类间的数据比较,如果分类不存在顺序,那么不要使用折线图。

折线图和面积图

  • 折线图和面积图都可以表示一段时间(或者有序分类)的趋势,相比之下面积图的表现力更强一些。
  • 面积图还可以表示数据的上下限,例如可以表示温度的最小值、最大值。

折线图示意图

未来一周气温变化折线图,如下图所示:


箱线图

定义

箱形图又称盒须图、盒式图或箱线图,是一种用作显示一组数据分布情况的统计图。

如果一个数据集中包含了一个分类变量和一个或者多个连续变量,那么你可能会想知道连续变量会如何随着分类变量水平的变化而变化,而箱形图就可以提供这种方法,它只用了5个数字对分布进行概括,即一组数据的最大值、最小值、中位数、下四分位数及上四分位数。对于数据集中的异常值,通常会以单独的点的形式绘制。箱形图可以水平或者垂直绘制。

箱形图多用于数值统计,虽然相比于直方图和密度曲线较原始简单,但是它不需要占据过多的画布空间,空间利用率高,非常适用于比较多组数据的分布情况。

从箱形图中我们可以观察到:

  • 一组数据的关键值:中位数、最大值、最小值等。
  • 数据集中是否存在异常值,以及异常值的具体数值。
  • 数据是否是对称的。
  • 这组数据的分布是否密集、集中。
  • 数据是否扭曲,即是否有偏向性。

箱线图特点分析

以下是箱形图的具体例子:

这组数据显示出:

  • 最小值(minimum)=5
  • 下四分位数(Q1)=7
  • 中位数(Med —也就是Q2)=8.5
  • 上四分位数(Q3)=9
  • 最大值(maximum )=10
  • 平均值=8
  • 四分位间距(interquartile range)= Q3-Q1=2 (即ΔQ)
    在区间 Q3+3ΔQ, Q1-3ΔQ 之外的值被视为应忽略(farout)。
  • farout: 在图上不予显示,仅标注一个符号∇。
  • 最大值区间: Q3+1.5ΔQ
  • 最小值区间: Q1-1.5ΔQ
    最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
  • mild outlier = 3.5
  • extreme outlier = 0.5

箱线图应用场景

  • 关注于一组数据的分布情况。比如经典的鸢尾花数据为例。我们用箱形图将不同种类的鸢尾花的花萼和花瓣的长度、宽度数据展示出来,同时我们还可以比较不同品种间花瓣和萼片数据是如何变化的。
  • 分组箱形图。 为了更清晰得比较不同品种间相同属性数值的区别,可以将上图变化为如下二维多个箱形图形式。
  • 一维箱形图。 箱形图有多种变换,这里介绍下一维箱形图,比如还以鸢尾花数据为例,展示的是所有品种的花萼和花瓣长度、宽度的情况,虽然是在一维坐标系中,但是通过添加颜色属性,可以为该一维箱形图再增加一个展示维度,即分类。

箱线图示意图

两种性别的三种基因含量表箱线图,如下图所示:


散点图

定义

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

散点图经常与回归线(就是最准确地贯穿所有点的线)结合使用,归纳分析现有数据以进行预测分析。

对于那些变量之间存在密切关系,但是这些关系又不像数学公式和物理公式那样能够精确表达的,散点图是一种很好的图形工具。但是在分析过程中需要注意,这两个变量之间的相关性并不等同于确定的因果关系,也可能需要考虑其他的影响因素。

散点图的特点

散点图通常用于显示和比较数值,不光可以显示趋势,还能显示数据集群的形状,以及在数据云团中各数据点的关系。

散点图应用场景

  • 男女身高和体重的例子来展示上述所描述的散点图的功能。

散点图与其他图表的对比

散点图和折线图

  • 折线图可以显示随单位(如:单位时间)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
  • 散点图显示若干数据系列中各数值之间的关系,或者将两组数绘制为 xy 坐标的一个系列。
  • 在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布,即折线图只有一个数据轴(即垂直轴)。
  • 散点图有两个数值轴,沿水平轴(x 轴)方向显示一组数值数据,沿垂直轴(y 轴)方向显示另一组数值数据。散点图将这些数值合并到单一数据点并以不均匀间隔或簇显示它们。散点图通常用于显示和比较数值,例如科学数据、统计数据和工程数据。

散点图和气泡图

  • 散点图和气泡图都是将两个字段映射到x,y轴的位置上。散点图侧重于展示点之间的分布规律,而气泡图将数值映射到气泡的大小上,增加了一个维度的数据展示。
  • 散点图可以展示成千上万个点的数据,而气泡图为了防止气泡的互相遮挡,需要根据画布的大小控制数据的规模。

散点图示意图

男性女性身高体重分布散点图,如下图所示:


地图

定义

地图是一种在地图分区上使用视觉符号(通常是颜色、阴影或者不同疏密的晕线)来表示一个范围值的分布情况的地图。在整个制图区域的若干个小的区划单元内(行政区划或者其他区划单位),根据各分区的数量(相对)指标进行分级,并用相应色级或不同疏密的晕线,反映各区现象的集中程度或发展水平的分布差别,最常见于选举和人口普查数据的可视化,这些数据以省、市登地理区域为单位。

地图的特点

  • 一个颜色到另一个颜色混合渐变;
  • 单一的色调渐变;
  • 透明到不透明;
  • 明到暗;
  • 用一个完整的色谱变化。

地图应用场景

适合的场景

  • 某年度国家各个省州的人口情况。 分级统计地图较多的是反映呈面状但属分散分布的现象,如反映人口密度、某农作物播种面积的比、人均收入等。

不适合的场景

  • 2008 年美国总统大选结果。 民主党候选人奥巴马和共和党候选人麦凯恩胜出的州分别用蓝色和红色表示。这个例子的选举可视化很容易给用户造成简介中提到的错觉:数据分布和地理区域大小的不对称。共和党比民主党获得了更多的投票,因为红色的区域所占的面积更大。但是在美国总统大选中,最后的结果是看候选人获得的选举人票数,每个州拥有的选举人票数是不一样的,在一个州获胜的选举人将得到该州所有的选举人票数。纽约州虽然面积很小,却拥有33张选举人票,而蒙大拿州虽然面积很大,却只有3票。

地图示意图

iphone销量地图,如下图所示:


雷达图

定义

雷达又叫戴布拉图、蜘蛛网图。传统的雷达图被认为是一种表现多维(4维以上)数据的图表。它将多个维度的数据量映射到坐标轴上,这些坐标轴起始于同一个圆心点,通常结束于圆周边缘,将同一组的点使用线连接起来就称为了雷达图。它可以将多维数据进行展示,但是点的相对位置和坐标轴之间的夹角是没有任何信息量的。在坐标轴设置恰当的情况下雷达图所围面积能表现出一些信息量。

每一个维度的数据都分别对应一个坐标轴,这些坐标轴具有相同的圆心,以相同的间距沿着径向排列,并且各个坐标轴的刻度相同。连接各个坐标轴的网格线通常只作为辅助元素。将各个坐标轴上的数据点用线连接起来就形成了一个多边形。坐标轴、点、线、多边形共同组成了雷达图。

雷达图的优缺点

  • 优点:雷达图还可以展示出数据集中各个变量的权重高低情况,非常适用于展示性能数据。

  • 缺点:

    • 如果雷达图上多边形过多会使可读性下降,使整体图形过于混乱。特别是有颜色填充的多边形的情况,上层会遮挡覆盖下层多边形。
    • 如果变量过多,也会造成可读性下降,因为一个变量对应一个坐标轴,这样会使坐标轴过于密集,使图表给人感觉很复杂。所以最佳实践就是尽可能控制变量的数量使雷达图保持简单清晰。

雷达图应用场景

  • 世界经济论坛不久前还发布了全球竞争力指数报告,通过基本要求、效率增强器、创新与成熟因素等三个大方面对全球国家和地区进行竞争力评估。中国排名第28,得分4.89。通过雷达图,我们可以清晰看出中国在各个因素下的得分情况,进而进行分析。
  • 常常表示由多个维度组成的能力衡量。比如展示了华为 Mate 和 中兴 Grand Memo 两款手机的综合表现雷达图,分别从易用性、功能、拍照、跑分、续航这五个维度进行考核,可以看出两款手机在这个维度方面的性能都比较平衡,同时也可逐项对比。虚构数据

雷达图示意图

浏览器占比变化雷达图,如下图所示:


仪表盘

定义

仪表盘(Gauge)是一种拟物化的图表,刻度表示度量,指针表示维度,指针角度表示数值。仪表盘图表就像汽车的速度表一样,有一个圆形的表盘及相应的刻度,有一个指针指向当前数值。目前很多的管理报表或报告上都是用这种图表,以直观的表现出某个指标的进度或实际情况。

仪表盘的优缺点

-优点:

- 仪表盘的好处在于它能跟人们的常识结合,使大家马上能理解看什么、怎么看。拟物化的方式使图标变得更友好更人性化,正确使用可以提升用户体验。
- 仪表盘的圆形结构,可以更有效的利用空间。

仪表盘应用场景

适合仪表盘的场景

  • 时钟&表
  • 投资收益率

仪表盘示意图

业务指标完成度仪表盘,如下图所示:


可视化图表用法

可视化比较图

可视化的方法显示值与值之间的不同和相似之处。 使用图形的长度、宽度、位置、面积、角度和颜色来比较数值的大小, 通常用于展示不同分类间的数值对比,不同时间点的数据对比。包括:

  • 柱状图
  • 气泡图
  • 子弹图
  • 色块图
  • 漏斗图
  • 直方图
  • K 线图
  • 马赛克图
  • 雷达图
  • 玉玦图
  • 螺旋图
  • 层叠面积图
  • 层叠柱状图
  • 矩形树图
  • 词云

可视化分布图

可视化的方法显示频率,数据分散在一个区间或分组。 使用图形的位置、大小、颜色的渐变程度来表现数据的分布, 通常用于展示连续数据上数值的分布情况。包括:

  • 箱形图
  • 气泡图
  • 色块图
  • 等高线
  • 分布曲线图
  • 点描法地图
  • 热力图
  • 直方图
  • 散点图
  • 茎叶图

可视化流程图

可视化的方法显示流程流转和流程流量。 一般流程都会呈现出多个环节,每个环节之间会有相应的流量关系,这类图形可以很好的表示这些关系。包括:

  • 漏斗图
  • 桑基图

可视化占比图

可视化的方法显示同一维度上占比关系。包括:

  • 环图
  • 马赛克图
  • 饼图
  • 层叠面积图
  • 层叠柱状图
  • 矩形树图

可视化区间图

可视化的方法显示同一维度上值的上限和下限之间的差异。 使用图形的大小和位置表示数值的上限和下限,通常用于表示数据在某一个分类(时间点)上的最大值和最小值。包括:

  • 仪表盘
  • 层叠面积图

可视化关联图

可视化的方法显示数据之间相互关系。 使用图形的嵌套和位置表示数据之间的关系,通常用于表示数据之间的前后顺序、父子关系以及相关性。包括:

  • 弧长链接图
  • 和弦图
  • 桑基图
  • 矩形树图
  • 韦恩图

可视化趋势图

可视化的方法分析数据的变化趋势。 使用图形的位置表现出数据在连续区域上的分布,通常展示数据在连续区域上的大小变化的规律。包括:

  • 面积图
  • K 线图
  • 卡吉图
  • 折线图
  • 回归曲线图
  • 层叠面积图

可视化时间图

可视化的方法显示以时间为特定维度的数据。 使用图形的位置表现出数据在时间上的分布,通常用于表现数据在时间维度上的趋势和变化。包括:

  • 面积图
  • K 线图
  • 卡吉图
  • 折线图
  • 螺旋图
  • 层叠面积图

可视化地理图

可视化的方法显示地理区域上的数据。 使用地图作为背景,通过图形的位置来表现数据的地理位置, 通常来展示数据在不同地理区域上的分布情况。包括:

  • 带气泡的地图
  • 分级统计地图
  • 点描法地图

参考文献

  1. Echarts扩展学习:http://echarts.baidu.com/index.html
  2. AntV扩展学习:https://antv.alipay.com/index.html
  3. GitHub
  4. 图书:《机器学习实战》
  5. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!