不靠谱的数据有哪些?(1 / 1)

普通人对数据都有敬畏感,特别是来自貌似官方权威的数据,更是能够给普通人带来自然的说服力。越是这样,我们越要提醒大家,有些人会利用普通人过于信赖貌似专业的数据心理,来欺骗大家。

那么利用不靠谱数据误导我们的常见手段有哪些呢?

1.滥用平均数制造虚假繁荣

我所在的高校领导曾经在一次报告中说全校老师年薪收入已经达到人均十万,结果很多老师就嘀咕,我哪里有十万年薪?我是被平均了好不好?

说到工资这个事情,大家都已经很清楚了,要分析一个单位大多数人的平均收入,用平均数计算工资是不科学的,用中位数或者众数相对来说更接近真相。

比如按上表,七个员工平均年薪是(5+5+5+6+8+16+25)万=70万/7=10万

按中位数,应该是6万。(对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。)

按众数,应该是5万。(一组数字中出现频率最高的数字)。

你看,选择不同的平均工资计算方式,大家的感受会完全不同。

2.用有限取样数据推导出不客观的结论

2.15年1月底,国家工商总局公布定向监测结抽检报告说淘宝正品率仅37.25%,其中:①抽查的淘宝、京东、天猫、1号店等,正品率为58.7%,淘宝最低,仅37.25%;②手机行业正品率仅28.57%,小米手机正品率40%,三星手机正品率0%;③雅戈尔、only、雅诗兰黛、史丹利等品牌正品率低。

这个抽样报告引起很多人质疑,原因何在?我们不妨先看看一组抽样调查数据。

淘宝有假货是事实,但是用于说明淘宝假货率高的调查样本也太少了。如果多买一件三星,恰好是正品,马上正品率就上升到33%,这显然不是一个有说服力的调研样本。所以引起争议也非常正常。

3.用以偏概全的数据混淆视听

以偏概全这种事情也经常可以看到,就是拿出一部分数据来论证观点,故意回避其它数据成分。

比如2015年人保部通过了公务员整体加薪方案,本来加薪是一件可以讨论的事情,为了让公务员也和普通人一样交社保拿社保保障金退休,是社会的进步。

但是在解释为什么要对公务员加薪时,有的专家大谈公务员基本工资已经十年没有变化,不加薪似乎对不起公务员。

但事实是2004年到2014年是考公务员热的十年,大家之所以参加国考,不就是看中公务员工作稳定还收入高。这个收入绝不仅仅只包括公务员的基本工资,还应当包括公务员的福利收入,隐形收入(比如有的单位可以优惠购房,对口子女上学),甚至还有灰色收入。

如果只比较基本工资,这是不公平的。

4.只选择对自己有利的数据

很多文章的数据看起来非常有道理,但都有一个特点,那就是选择性提供对自己观点有利的数据,隐瞒不支持自己观点的数据,这样让他的文章看起来非常有说服力。

比如一些文章会告诉我们中国13亿总人口中还有3000万人口没有脱贫,也就是说中国还有3000万个穷人。但人口只有3亿多的美国也存在3500万贫困人口,这不是恰好说明了我们国家制度的优越性?

但是这些人却没有告诉你美国的贫困人口收入线在2010年规定是单身年收入是10991美元以下,两口之家年收入在14051美元以下,三口之家年收入在17163美元以下,四口之家年收入在22314美元以下。

我们国家规定的贫困线标准是年纯收入1500元人民币,实际上比联合国规定的贫困线标准日收入1.25美元以下还低。

所以这样只比贫困人数规模和占比,不对比贫困线标准的数据显然是有问题的。

在房地产行业,类似的游戏也非常多。比如新闻里需要说明房价在上涨时,他们会说上季度某地中心城区房屋价格上涨了百分之多少,需要认证房价在调控下趋于稳定时,他们会说上季度某地区房屋价格开始出现滑落。

小心!这里面讨论的地区是一个弹性区域,大家都在选择自己需要的数据,而不是针对统一调研半径的数据进行分析。这样的数据引用显然是犯了选择性提供对自己有利的信息,刻意掩饰对自己不利信息的问题,推导出来的结论也自然不具备可信度。

5.不提供数据的准确定义

和写文章有些人会自觉不自觉偷换概念一样,在引用数据时也有人自觉不自觉地偷换概念。

比如现在很多创业公司都希望得到风险投资,你问他的公司为什么值得投资,他会告诉你他的APP拥有多少万用户。比如2014年横空出世的霸道90后总裁余佳文说自己的《超级课程表》有1000万用户,这个数据就被很多人质疑造假,我想这里面最大问题可能是余佳文没有定义自己的用户数是什么概念。

有的APP运营者的用户数其实只是装机量,比如他可以和中国移动合作,在每部手机上都预装软件,但根本没有用户去用,这种装机量算用户是不合适的。

还有的APP运营者告诉你的用户数是用户下载量,不代表活跃用户数量,有的用户只是好奇下载一次就卸载了,这不能算真实用户。

还有的APP运营者倒是告诉你活跃用户占比和数量,但什么叫活跃用户?这个定义它可不会明确说明,留下模糊操作的空间。

总之,在提供数据时,没有明确定义自己的数据指标是如何定义和采集的,这样的数据都大有可疑。

6.用相对值代替绝对值

我在指导大学生做简历时,看到这样一段自我描述:

“在担任学生会部长期间,部门筹款经费比上一年度翻了一倍。”

看起来非常给力对不对?但是似乎哪里不太对头。因为这位朋友说的是相对值,而不是绝对值。如果谈绝对值也许真相是去年部门筹款经费是50元,今年是100元,都很糟糕!

这种把戏不仅仅在简历里才有,只要我们留心,你随时可以找到类似的案例。

比如在汇报工作业绩时,假如某单位2014年3月销售业绩是100万,2015年3月销售业绩是120万,2015年2月的业绩是60万。

如果你用同比来说明你的业绩,会这样写,2015年3月业绩与去年同期相比,同比增加了20%。

但如果用环比,也就是2015年相邻的两个月比较,那就是2015年3月业绩与上个月相比,环比增加了100%。

嗯,你看同样的业绩,换个说法,似乎感觉大不一样呢。

7.假借权威发布不实数据

网络上还有一种常见情况,很多数据看起来很官方很权威,但根本就不是做了科学研究得到的数据,而是假借专家,假借权威组织,或假称是引用权威媒体的数据。

在文章中不但没有说清楚这些专家是谁,权威媒体名称也是似是而非,数据来源无法追溯,无法查证,这种情况往往是公然数据造假。

说到这里,我随手搜了一条预测2015年房地产价格变动趋势的网文,文章中提到“对于2015年楼市走势,多位业内人士都认为,楼市成交量将企稳回升,至于房价涨跌,要看所在城市的库存以及供需关系的变化。专家表示,2015年楼市总体将呈现止跌反弹的复苏态势。”

你看这段话里面到处是业内人士,专家还有各种专业术语,企图暗示你2015年房市会企稳回升,其实想暗示你房价会上涨,你应该抓紧时间买房,你觉得这种文章可信吗?

那么一些所谓的主流媒体派记者做各种抽样检测来发布结果,这靠谱吗?——一般而言,对产品质量的试验检测是很专业的工作,媒体人不是从事相关专业的,从科学取样到标准检测到数据解读,都需要专业背景,一不留神就变成想当然。还记得2014年罗永浩和王自如优酷对质,说王自如测评不专业的事情吗?

即使是一些打着权威公正的商业调查,不告诉你调研总量,不告诉你调查范围,不告诉你对比组数据,只用权威调查这样模糊不清的说法进行暗示,这种也不少见。

如果我们要学会独立思考,就必须建立在真实的数据基础之上,但是这个世界上太多人出于无知或者私利,总想用错误的数据诱导我们做出错误的判断,只能靠我们自己多长几个心眼,不要轻易被别人骗了!

互动练习

请列出一系列原始数据,尝试运用这七大产生误导数据的手段,对原始数据做出混淆视听的说明。这种反向运用能够帮助你日后更加敏锐地去辨别一些虚假数据分析哦!