数轴有鬼:用数据可视化撒谎很简单(2)

  • 宣传操纵可以非常微妙,润物细无声…… 目标:让你自己骗自己。

继续上周的话题,如果您还没有读过(1)在这里看到

虽然人类的大脑进化至今仍然不能处理数量巨大的、以数字表示的数据文本;但是人的眼睛却可以很容易捕捉形象化数据所含有的模式。这就是可视化新闻为什么火了

通过制作图表来展示每个单一的数值是一种呈现数据的常用方式。

虽然这种方式呈现出来的数据最准确,但是,其可解释性却最小

不过,对于大多数人来说,在这样的数据中识别模式和趋势依旧是比较困难的,或者说几无可能。于是,⚠️在此做诈者会很容易得手

要想解决这个问题,或许需要依靠一些辅助。

图表分为两大类:一种是使用形象化的方式来代表每一个数据点(如散点图);另一种是采用数据缩减的方式,借以把数据汇总考察,比如只分析数据的中位数。

使用图表操纵、扭曲、和错误地呈现数据的方法有很多种。你很难免被骗

但是依旧有几个迹象能提醒你:小心欺诈。

I 数轴未做标记

用统计图表说谎的最基本方法就是在数轴上不做任何标记。

如果不标记数轴,那么你就可以随意绘制图表了!

来看一个例子。一个学术大会上,一名学生向听众展示了下面这张图(中文内容原图中全没有):

这是什么意思?

可以在报告的文本中了解到,这个大会的主题是关于精神分裂症患者的大脑激活。

那 HCs 又是什么?

不得不再次看报告,其中说它代表的是在与精神分裂症对比。或许是“健康管理”?

现在,HCs 和 SZs 两者看起来确实有不同之处,但是……图中 y 轴标有数字,但是却没有任何单位。

那么这个图代表什么呢?考试分数?大脑活动水平?激活脑区的数量?是吃掉的包子数量、还是最近六周内看电影的数量?……

参加这个大会的研究人员随后在一本同行评审期刊上发表了上图所示的研究成果;并且在一家网站指出其错误后对图做出了修正。

下面的例子是关于一家出版公司的销售总额,并且剔除了营销初期的销售数据:

这张图的状况和前面的例子一样,只不过这次问题是处在X轴上。

虽然X轴标记了数字,但是没有说明数字代表什么。

你可能会猜到是自然年度或财务年度,那些线的起伏说明是按月份来取的数据 —— 请注意这是瞎猜。

图中也没有Y轴,所以你不知道它衡量的东西是什么,究竟是销售单位还是货币单位;也不知道每条水平直线的意义是什么。

它可以描述销售额从5分钱/年增长到5块钱/年,也可以描述5000万增长到5亿。好吧,这张图还至少附带了一句话:“这又是一个收获很大的年份”。只能认同后者这种猜测了。

II 截短纵轴

一张绘制精良的图能够让你清晰地看出一个连续体相关的终止点。

如果你记录的是数量的实际或预计变化情况,这一点是尤其重要的。因为你的目的是让读者从图中得出正确的结论

如果你的图表示的内容是犯罪率、死亡率、出生率、收入或其他任何可以取值为0的数量,那么0就是图中的最低点。

⚠️但如果你的目的是制造一种使人感到恐慌和愤慨的效果,那么就要在接近图最低点的地方开始画Y轴 —— 这样做能够使你想要凸显的差异得到强化,因为人的眼睛很容易捕捉差异大小,同时差异的实际大小却被弱化了。

以下是福克斯新闻的图,其目的是想要说明如果减税计划终止将要发生什么情况:

这张图给人的直观感受是税率将会大幅上升:右边的条形方框是左边的6倍。

没人希望多缴5倍的税吧?数字恐惧症的人或者看得太仓促的人,也许没有时间分析下它的问题。也就无法发现,实际上是税率从35%上涨到39.6%。

也就是说,如果减税计划终止,实际税率上涨幅度不过13%,而并非此图暗示的600%(4.6%的上涨幅度相当于起始税率35%的13%)

假如Y轴从0开始,那么13%的税率上涨幅度就一目了然了,就像下面这样:

显然这样是不够刺激,对吧?

III 横轴和纵轴不连续

这也行?还真行。

假设一个城市在过去10年里的犯罪率每年都从5%的速度增长;据此你可以画出下面这样的图:

这图没毛病。

但是,假设你现在是一位家庭用监视摄像头的销售员,你的任务是把监视器卖出去。于是你就希望引起消费者的恐慌,来促使他们购买你的商品

这时候你使用与上面的图完全相同的数据,只需要在X轴上截下去一小段,让它看起来不连贯,就可以做到扭曲事实,巧妙地骗过人们的眼睛,就是下面这样:

这张图给人的感觉就是犯罪率徒然上升了。

X轴上的不连续相当于把5年的数据强行用在了之前图中两年所占据的空间中,难怪吓人一跳。这是绘图的基本缺陷。但是,大多数人不会仔细看数轴,于是这种图依旧很能唬人。

还可以继续发挥创造力,通过在Y轴上制造不连续可以得到相同的效果,然后再把不连续之处加以掩盖:

嗯,这样实在太损了。可是,⚠️大多数人只会看图上的线,而不会去注意两个轴的刻度……于是你可以愉快地继续骗人。

现在,如果要批判性地评估这个统计数据,那么你或许会问,数据的收集或表达方式是否存在某些掩盖了潜在事实真相的因素?

可能。

一种可能的情况是,犯罪率的上升只发生在一个治安状况极其糟糕的社区,整个城市的所有其他地区的犯罪率其实在下降。

另一种可能的情况是,把不同的社会抱怨混在一起了,然后将其全部放在了“犯罪”这个模糊的类别中。由此忽略了一个重要因素:也许这个城市的犯罪率已经下降为0,于是警察把注意力放在抓闯红灯的人身上了。

继续思考你还会提出问题,显而易见的:“在统计时间段里,该城市的总人口出现了什么变化?”

假如城市的人口每年以高于5%的速度增加,那么人均犯罪率实际上是下降了。下图是每一万人的犯罪数量图示:

IV 选择恰当的刻度和数轴

假设你是一个社区的房地产经纪人,负责把过去十年本社区房屋价格的变化绘制成图。一直以来,房屋价格都在以每年15%的速度稳定增长。

如果你希望引起人们的警惕,那么就不如把你现在还没有拿到相关数据的年份也加进去……像这样人为地在X轴上增加额外的年份,就可以实现整个曲线的极大坡度,特别能蒙人。下面这样:

⚠️请注意这张图是怎么骗了你的脑子的。让你得出了两个错误的结论:一、1999年的某个时候房价一定很低;二、到2030年房价就会高到没人买得起的地步……于是第三个错误结论就出现了:现在马上买!

上述两张图都扭曲了事实,因为它们使一个稳定的增长率直观上看起来是不断上涨的增长率

有很多事物都是恒定变化状态的,工资、物价、通胀、某个物种的数量、疾病受害者……当你面对一种稳定增长/或下降的情况时,最准确的呈现方法是对数刻度。

使用对数刻度时,相等的百分比变化会以Y轴上的相等距离表现出来,于是恒定的年度变化就成了一条直线,比如这样:

V 可怕的双Y轴

要知道,绝大多数人都不会仔细观察图,图的制作者就可以搞出五彩缤纷的谎言来,依旧能侥幸成功。

这种情况使很多人对假象深信不疑。

参考下面这个。它说的是25岁吸烟者和不吸烟者的预期寿命对比情况:

这张图说的是:

  • 吸烟的危害随着时间的推移而不断积累;
  • 吸烟者可能比不吸烟的人死的早。

在40岁时这两类人的死亡可能性差异不大,但是到80岁时,吸烟者死亡的可能性增加一倍还多。

这种呈现数据的方法既简洁又准确。

但是,假如你是一名14岁的吸烟者,你很想说服父母允许你继续吸烟。这个图肯定帮不了你。你需要搞点小心机。

比如这样,使用两个Y轴,也就是在图的右边增加一个Y轴。新增加的Y轴采取不同的刻度,而且只适用于不吸烟者,变成下面这样:

这样就变成了:不论是不是吸烟,死亡可能性是相等的。吸烟对你没什么害处,变老才是危及生命的。🚬

⚠️双Y轴的图带来的骗局在于,你总能随意更改第二个Y轴上的刻度。

福布斯杂志就曾经使用过一张类似上面的图,来说明公立学校每名学生的学习费用投入与他们的SAT考试成绩之间的关系[Wainer, H. (1997). Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot]

从上图看,似乎增加每名学生的学习费用投入(黑线)对于提高他们的成绩(灰线)没有任何作用。

那些反对政府财政支出的政客就可以借此宣扬,公立学校学生的学习费用投入是一项浪费纳税人的钱的举措。

但是你明白,图中的第二个Y轴的刻度是可以随意选择的。

假如你是一名公立学校的管理人员,你完全可以采用相同的数据,但是,简单改变一下右边数轴的刻度,就如下图,💡就能看到费用投入使学生成绩提高了!

显然,简单修改一下就能说明完全不同的状况 —— 数据还是那些数据。

到底哪张图反映了真实状况?

你可能需要一些方法来衡量一个变量如何随着另一个变量的变化而变化。这就是统计学中的相关性分析。

相关系数的取值为-1到1。当相关系数为0时,说明一个变量和另一个变量毫不相关;当为-1时,说明一个变量增长时另一个下降,完全同步发生。

上面讨论的第一张图说明的是相关系数为0的情况;第二张图则说明了相关系数接近于1的情况。

这个数据集实际的相关系数为0.91,关联度很高。

你看,根本不需要什么数据掺水,在可视化上稍微动一点手脚,就可以达到宣传效果 —— ⚠️请注意,动这种手脚的人大多是操纵式宣传的执行者

双Y轴问题曾经“惊动”了美国国会,引发了一场争论。当时众议员 Jason Chaffetz 展示了一张图,描绘的是美国计划生育协会提供的两项服务:堕胎和癌症筛查[Planned Parenthood Roth, Z. (2015). Congressman uses misleading graph to smear Planned]

这位众议员试图提出这样一种观点:在7年之内,美国计划生育协会所提供的堕胎服务增加了(他对此持反对意见),同时癌症筛查服务数量却减少了。

虽然计划生育协会并没有否认这位众议员的观点,但是,这张图可是扭曲了的,图中堕胎服务的数量似乎超过了癌症筛查服务的数量。

也许制图的人有点惭愧吧,还在数据点的位置上标出了实际数字。

先接受图中数据,分析一下。

2013年的堕胎服务的数量是 327000例,而癌症筛查服务的数量几乎是其 3倍,达到 935573例 ……(顺便说,堕胎服务的数字如此整齐,真的很巧呵)这是一个非常凶险的例子:隐性的双 Y 轴图居然两边都没有 Y 轴。

这个图画好一点应该是这样的:

你要看到,堕胎服务略有增长,而癌症筛查服务数量呈现下降趋势。

对于那个凶险图来说,其实第一眼就应该怀疑。因为图中的线条特别平滑,在数据图中很罕见这种状况。

绘图者很有可能选取了两个特别的年份,并在比较之后两点一线连起来了。或许他是为了有意强调差异;也或许是中间年份数据波动比较大。不管怎么样,一条完美直线的情况都是极不可能的。

类似这样的图并非总能达成人们期望的那种意义。

计划生育协会的任务是尽可能多提供一些堕胎服务?除了这样的解释之外难道就没有对上述数据的其他解释了?

看第一张图。2006年提供了 2007371次癌症筛查服务,同时还进行了 289750 次的堕胎服务;提供的癌症筛查服务的数量几乎是堕胎服务的的 7倍。到 2013年两种服务数量的差距缩小了,但癌症筛查服务的数量仍然几乎是堕胎服务数量的 3倍。

计划生育协会主席 Cecile Richards 曾经对数量差距缩小的情况做了解释。因为一些抗癌服务项目在就医指南方面出现了变化,比如巴氏图片检验,就减少了需要做癌症筛查的人数。其他方面诸如社会对堕胎的态度、社会人口的年龄、卫生保健替代品的增加,都会影响这两项服务的数量。

因此图中的数据不能证明计划生育协会支持堕胎。即使它支持,这些数据也无法作为证据。

就是这么简单。💡防止被操纵式宣传蒙骗的办法就是,想一分钟。

尤其是在互联网上,能够做到想一分钟的人极为稀罕。想想看,加载速度超过3秒你就会血压上升,对吧?所以用这种动过手脚的图示来进行宣传操纵的伎俩,在互联网上经常能得手……

—— 未完待续 ——

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据