阿里妹导读:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天,阿里高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。
一、前言
我所在的阿里企业数据化管理领域,数据可视化水平参差不齐,尤其是在汇报PPT和报表制作环节...今天,不深度探讨具体业务问题,仅给出一些可视化通用建议。
通过文章你可以获得的建议:
挑选顺手的工具加工正确的数据选择合适的图表一个实例
二、数据可视化工具
在这里首先我想说下数据可视化追求的三个目标:准确、清晰、优雅。符合这三项的图表被称为高效的数据可视化:
准确:精准地反馈数据的特征信息(既不遗漏也不冗余,不造成读者疏漏误读细节)
清晰:获取图表特征信息的时间越短越好
优雅:美观(不是酷炫)、协调(相同场景的图表遵循统一规范)。
除此之外,这三项的重要性也有相对次序:准确清晰优雅,原则上我们该尽量往这三个方面靠拢。
问题来了,如何挑选顺手的工具帮助达成目标呢?
其实应当分情况来看,高效的数据可视化根据目的差异,大致分为两种类型(来自ColeNussbaumerKnaflic的视频采访):
解释型
已知目标数据的特征信息或者价值;最大目的是传达解释给其他人自身的洞察;追求极致的细腻表达。
探索型
未知目标数据的特征信息或者价值;最大目的是自己分析探索数据;追求快速高效的数据交互。
大家在开始动手前,不妨先想一下自己是哪种意图,通常情况下鱼和熊掌不可兼得,数据的灵活变换和细腻表达虽然不矛盾,但很难兼顾。这就促成了我们可用的工具都有一定的偏向性,简单易上手的BI工具可以帮助我们快速完成可视化,但有可能内容差强人意。一些专业的图表代码库理论上可以针对任何细节进行调整,但是效率和门槛存在明显劣势。
原则上工具没有孰优孰劣(事实上很多工具两方面都做得很好),只是相对而言。笔者对常见种类的典型代表工具做了一个定性评估(个人意见):
这里我将Excel与Tableau高亮了出来,Tableau作为业界最著名的BI软件,容易上手,可视化效果也非常棒,有助于你分析探索数据。而Excel是一款被大多数人严重低估的产品,它可以很方便实现各类图表微调,画出漂亮的数据图。
如果你没什么倾向性,Excel很适合作为你深入研究的第一款数据可视化工具。
三、选择有效的图表
3.1可视化流程
抛开一些专业理论,简单来讲,我们制作图表的步骤分为3步:
1.选择要传达的数据信息
2.寻找可视化方法
3.实现方法并完善细节
对于步骤1,主要考虑数据本身的信息与作者自身的洞察信息,列清楚这些信息,有助于你选择合适的可视化方法。下文我会讲述一些常用的方法论知识,但不是简单给出你要选择柱形图or饼图。至于具体的图表选用指南可以Google一下。
3.2视觉编码
首先看两张图:
由于使用了视觉编码(颜色)传达信息,人们更容易理解原数据的特征了。
又比如普通的柱形图,我们使用了柱子的“高度”和“相对位置”传达了两组数据信息,而柱形图往往比没进行编码的表格数据更容易理解。
我们要来熟悉两个重要概念:“视觉编码”“视觉通道”。如果把人类大脑看做是一个信息解码系统,那么可视化就是对信息(数据)的编码过程,信息通过视觉编码后,将内容通过眼睛传达至大脑,大脑解码信息并获取知识。
那么图形的视觉通道有这么多,该如何选择合适的视觉通道映射数据呢?这里需要通过数据的类型以及视觉通道的表现力进行综合判断,基础的学术理论有详细说明,这里我做一下简单介绍。
★数据类型
一般我们数据分为“类别型”、“有序型“和“数值型”三类,苹果、香蕉属于类别,几月几号属于有序,利润属于数值。在很多可视化商用工具的概念中,将”有序、类别型“的数据称为维度,”数值型“的数据称之为度量(指标)。
维度和度量所适用的视觉通道是有巨大差异的,例如颜色的色调适用于维度,但不适用于度量。选择正确的视觉通道,令信息传达更有效率。
★数据通道的表现力
在浙大教授陈为的著作《数据可视化》(陈为沈则潜陶煜波.数据可视化[M].电子工业出版社,)中,使用4个指标作为评判一个通道的表现力标准:
精确性可辨认性可分离性视觉突出
深度理解这些标准,有助于我们明白一些可视化图表修改建议背后的深层次原因。
这组测量数据采用科学的方法反映了一些制作经验的合理性,比如:
一些专业设计师非常反对使用饼图——面积角度与人类的感知联系不是线性变化。使用长度映射数据的柱形图通常是最佳可视化选择——长度与感知是线性变化。常规商业统计图表永远不要使用3D效果——体积严重影响人类感知的精确性。
可分离性告诉我们不能无限制的使用多种视觉通道,每增加一种通道来映射数据,都需要考量对已有编码方式的影响,尤其是尺寸(size)特别影响其他视觉通道的效果。
我们结合柱形图做一个举例,下图的柱图使用了宽度(size)映射了一个度量字段数据,宽度影响了长度的有效力,这两个通道的同时使用,使得感知上有趋近面积这一通道,从而影响了整体图表的效果。
有一次一位业务的同学问我为什么不给柱图的柱子加“圆角”功能,其实也是这个原因,过度的圆角会使长度损耗精确性,对于图表的整体表现力是破坏。
数据的视觉编码在学术上有一个冗长的表现力优先级列表,我在这里简化这些概念,只给出一份推荐使用的视觉通道,理论上这些通道之间都可以组合使用,请根据实际情况挑选最佳方案。
另外一个行之有效的实践方式是:不要从头构建可视化的方案,请在最基础的统计图类型之上选择追加视觉通道,然后不断尝试效果。不是什么图表都可以用所有通道的,例如行政地图就没有长度通道。
3.3设计原则
设计图表,好的视觉编码是最重要的点,除此之外,对数据的筛选也是一项挑战,过大的信息量会使图表显得混乱,造成认知负荷。对于JavaScript构建的可视化内容,我们还需要