版面导航:| 新闻资讯 | 统计导刊 | 数说民生 | 经世导刊 | 行业看台 | 汽车时代 | 周末副刊 | 数苑观象 | 地方经济 | 新月刊 |
| 区域观察 | 经济观察 | 城市经纬 | 企业统计 | 艺苑大观 | 观点集粹 | 县域经济 | 调查月刊 | 特色产业 |
  重点栏目:| 今日评论 | 潘璠视点 |
用好大数据须强调统计思维_中国信息报
当前位置:[今日评论] →返回首页
分享到:微信更多
更新时间:2014年11月04日 09:20:30

用好大数据须强调统计思维

■  解明明/文

    大数据从2011年起变成了炙手可热的话题。大数据一词虽然内涵重心是数据,但其中更为重要的统计思维却往往被忽视。而缺乏统计思维的“大数据”则有可能带来“大偏差”。
    谷歌流行病趋势模型,曾经被当做推销大数据概念的金牌案例。其作用是预测流感和登革热的流行病趋势,但实践表明,这一模型并没有经得住时间的考验。从2011年8月21日到2013年9月1日期间,谷歌流行病模型在108个星期里有100个星期高估了流行病数据。2013年1月,谷歌流行病趋势模型的估计值是实际数据的2倍。如此大的误差显然是无法接受的。
    大数据作为二手数据,缺乏行政监督,很多时候也没有办法控制大数据的样本,大数据的样本往往是有噪音的和冗余的,这些问题给大数据分析带来了一定的障碍。谷歌流行病预测模型的目的是预测全美流感发病率,用的数据是搜索引擎用户的搜索记录。但是,全美国民和搜索引擎用户并不是同一个概念。有流感症状的人并不都会使用搜索引擎查询,而使用搜索引擎查流感症状的人也不见得都得了流感。谷歌流行病模型的基础是流行病发病和各种关键词搜索之间的相关关系,但是这种相关关系不是一成不变的,当媒体大量报道和普及流行病常识时,公众在一定程度上产生恐慌,会带来搜索量的突增,这种突增并不意味着流行病的爆发。这也是谷歌流行病预测模型失败的主要原因之一。
    在统计学视角里,样本并不是越大越有价值,统计学强调的是样本的代表性,这一代表性一般是通过抽样调查来满足的。如国家统计局为了更好进行抽样调查,建立了基本单位名录库,名录库就是统计调查中的抽样框,抽样样本均来自于抽样框。抽样框既是选择样本单位的依据,也是推断总体的依据。在分析问题时,弄清楚自己的研究总体是非常重要的,如果大数据样本不是研究总体,也不是研究总体的抽样样本,这个时候用大数据做结论就需要非常小心,不然很容易由“大数据”带来“大偏差”。
    统计与信息技术联姻,是大数据发展的必由之路。直视当下大数据分析中存在的问题,在利用机器学习算法的同时结合统计学的思维,才能更好地利用大数据这个工具,让大数据时代变得更美。

 
[近期推荐]
· 国家统计局党组召开扩大...
· 《防范和惩治统计造假、...
· 强化组织领导 统筹有力推...
· 第4届中国-东盟统计论坛...
· 巩固共识 深化合作
 
[联系我们]
中国信息报记者名录

新闻热线:(010)63376728
广告热线:(010)63376800
发行热线:(010)63376723
举报电话:(010)63376713

中国产业报协会
产业报行业报新闻道德委员会
举报投诉电话:010-65573925
举报投诉邮箱:xwddwyh@126.com

报社简介 | 广告刊例 | 投稿信箱 | 记者名录 | 新闻记者证管理办法 | 报刊记者站管理办法 |
通讯地址:北京月坛南街57号国家统计局中国信息报社 邮政编码:100826
网址:http://www.zgxxb.com.cn 中国信息报社版权所有
京ICP备06043878号-2