版面导航:| 新闻资讯 | 统计导刊 | 数说民生 | 经世导刊 | 行业看台 | 汽车时代 | 周末副刊 | 数苑观象 | 地方经济 | 新月刊 |
| 区域观察 | 经济观察 | 城市经纬 | 企业统计 | 艺苑大观 | 观点集粹 | 县域经济 | 调查月刊 | 特色产业 |
  重点栏目:| 今日评论 | 潘璠视点 |
走出大数据分析与解读的误区_中国信息报
当前位置:[周末副刊] →返回首页
分享到:微信更多
更新时间:2016年05月20日 09:00:25

走出大数据分析与解读的误区

——我读《对“伪大数据”说不》
■ 王思彤/文

      近几年,大数据成为社会流行词汇,已进入高层决策视野,并在不断影响百姓的日常生活。很多人在关注大数据、谈论大数据、应用大数据、分析大数据,在不知不觉中把自己变成了数字人、数据人。
      数字和数据不是一回事么?对,数字指的是我们生活在0和1组成的数字化时代,数据指的是数字构成的量化信息,以及我们不得不接受来自四面八方的各种数据的影响。
      因此,当中国人民大学出版社王立军先生请我在他们出版的新书中挑选一本的时候,我选择了这本《对“伪大数据”说不:走出大数据分析与解读的误区》。我想知道,在这本书的作者冯启思(Kaiser Fung)眼里,什么是“伪大数据”?它是怎么形成的?如何鉴别大数据的真伪?以及如何对大数据进行正确的分析与解读?
      冯启思认为,我们生活在一个任何人都无法摆脱数据的大数据时代,因为数据是免费的,又很容易获得,所以必然会产生更多的数据分析。但是由于没有人能够掌握所有的信息,所以对数据的分析总会出错。即使是专家,有时候也会掉进数据陷阱中。大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。明目张胆的欺诈虽然很难被侦测到,不过,它们经常会因为不一致而暴露出来。对于数据的消费者而言,必须处处留神,必须具备能够辨别真伪数据与分析的火眼金睛,即具备一种数字直觉。
      冯启思认为,数字直觉是一种与生俱来的直觉,它有别于技术能力和商业思维。有些人可能在编程方面无人能敌,却可能没有数字直觉;有些人可能很会讲故事,但可能没有数字直觉;有些具备数字直觉的人很快就能从迷宫中找到从A到Z的通路,而有些不具备这一直觉的人则可能会困在迷宫里,永远也走不出来。
      本书是通过对社会大数据、营销大数据、经济大数据和体育大数据这四个方面的解读,以讲故事的方式,来完成作者大数据分析观的阐述。
      什么是“伪大数据”呢?书中没有给出明确的定义。但通过作者的阐述,我们大体可以得出这样的结论,所谓“伪大数据”,包括几个方面:一是指数据虚假,比如美国密歇根大学法学院,通过替换足够数量的学生,以改变中位数的方式,达到学院排名上升的目的。比如通过中位数插补技术填补数据缺失所导致的数据失真。二是指分析片面。比如如果单纯看1987年航班晚点率的话,美国西部航空公司仅为11%,是最低的,但它却在1991年宣告破产,而阿拉斯加航空公司晚点率虽然达13%,但它在美国西海岸的5个机场的晚点率却都低于美国西部航空公司。三是评价方法的人为操控。没有哪个主观性标准能摆脱被操纵的命运,而大数据的存在恰恰加剧了这种危险。评级公式越复杂,数字被篡改的机会就越多。四是统计模型的瑕疵。统计模型与牛顿的重力模型完全不同。牛顿的重力模型中,方向朝下的力量使得树上的苹果总会掉下来,无论昨天、今天还是明天。但在统计模型中,却远没有这么简单。比如你今天带了一把绿伞,不能肯定明天你买一把伞也一定是绿色的。因为二者之间不存在必然的因果关系。换句话说,我们几乎不可能把千变万化的人类行为提炼归纳进一套公式里面,假设并不必然成立。
      “伪大数据”是怎么形成的呢?上面已经部分阐述了形成原因,我们重点再来看看航空公司晚点率的分析。阿拉斯加航空公司在美国西海岸的旧金山、西雅图、洛杉矶、圣迭戈、菲尼克斯等5个机场的晚点率分别为17%、14%、11%、9%和5%,平均晚点率为13%;美国西部航空公司在上述5个机场的晚点率则分别为29%、23%、14%、15%和8%,平均晚点率为11%。为什么阿拉斯加航空公司在5个机场的晚点率都低于美国西部航空公司,但总体晚点率却比美国西部航空公司高出2个百分点?原来,美国西部航空公司在菲尼克斯机场起降次数为4840次,占6438总起降次数的75.2%,而菲尼克斯机场的晚点率仅为8%,明显低于11%的总体晚点率,对该公司的总体晚点率产生了拉低作用。而阿拉斯加航空公司在西雅图机场起降次数为1841次,占3274总起降次数的56.2%,而西雅图机场的晚点率高达14%,高于13%的总体晚点率,明显对该公司的总体晚点率产生了拉高作用。可见,正是由于这两个占比较高的机场所产生的方向不同的过度加权,使得整体与局部的比较出现了较大反差。在这种情况下,如果只看总体晚点率,而不具体分析比较各个机场的表现,就可能会得出错误的结论。
    如何鉴别大数据的真伪、避免让分析变成烟幕弹呢?书中没有集中归纳。从散见于书中的思想火花来看,主要可以注意以下几个方面:一是不从表面上判断已公布的数据;二是知道该问什么问题;三是研究原始数据;四是能敏锐地发现被篡改的数据;五是能够认出哪一部分分析是建立在数据之上的,哪一部分仅仅是一种理论;六是不轻信统计模型。
      如何对大数据进行正确的分析与解读呢?书中也没有进行集中归纳。不过从字里行间来分析,作者的方法主要有两个:一是尽可能寻找合适的证据。书中引用了统计学家的经典格言:“找不到证据,并非证据不存在。”二是正确运用假设。大数据的世界需要更多好假设,更少坏假设。

 
[近期推荐]
· 10月份国民经济运行在合...
· 创新:“第一动力”的时...
· 为民营经济营造更好发展...
· 2017年《中国妇女发展纲...
· 共享中国机遇 共创美好未...
 
[联系我们]
中国信息报记者名录

新闻热线:(010)63376728
广告热线:(010)63376800
发行热线:(010)63376723
举报电话:(010)63376713

中国产业报协会
产业报行业报新闻道德委员会
举报投诉电话:010-65573925
举报投诉邮箱:xwddwyh@126.com

报社简介 | 广告刊例 | 投稿信箱 | 记者名录 | 新闻记者证管理办法 | 报刊记者站管理办法 |
通讯地址:北京月坛南街57号国家统计局中国信息报社 邮政编码:100826
网址:http://www.zgxxb.com.cn 中国信息报社版权所有
京ICP备06043878号-2