趣味思考 这句话有什么问题?
关于“大数据”,有一句盛传已久的名言:“除了上帝,任何人都必须用数据来说话。”这句话是存在逻辑问题的,你能看出来吗?
揭晓谜题之前,我们需要先思考一个问题:上帝等不等于人?
如果说,上帝不等于人,把两者放在同一位置上进行差别的比较,是没有意义的。如果说,上帝等于人,两者存在比较的基础,那就又出现了内在的逻辑冲突:倘若“任何人”包括上帝的话,那么上帝也必须“用数据来说话”,此话前后就是自我否定了。
要解决这个逻辑谬误,办法很简单,放弃用“上帝”做比较,直接将这句话改为:“任何人都必须用数据来说话。”可是,这又出现了一个新的问题:用数据来说话,就一定可信吗?数据有没有欺骗性呢?
在现实的论证中,利用统计数据作为证据是一种常见的方式。这样的证据看起来十分动人,因为数字让证据显得极具科学性,非常精准,似乎它就代表了“事实”。但是,我们必须认识到一个真相:统计数据会,且经常会,说谎!它们不必然就能证明它们想证明的一切。
那么,数据是如何欺骗我们的呢?或者说,数据为什么不完全可信呢?
混杂因素
混杂因素,是指在试验中会混淆所研究因素与结果之间联系的那些外部因素,它的存在会对试验结果产生干扰,出现所谓的混杂效应。
2008年欧洲杯和2010年世界杯两届大赛中,章鱼保罗声名鹊起,红遍全球。原因就是,这个生物预测14次猜对13次,成功率高达92.86%,被人捧为“章鱼帝”。
但凡有一些常识的人,都知道“章鱼有预测能力”是不符合现实的,但为什么会出现预测14次猜对13次的情况呢?这里面的底层原理是什么呢?答案正是,混杂因素。
这里的混杂因素比较隐晦,不太容易被众人识破,那就是国家国旗的样式!
让章鱼预测比赛结果的方式很简单:在鱼缸旁边放置两个国家的国旗和食物,让章鱼进行选择。研究发现,章鱼这类生物能够辨识明暗度,特别是横向条纹。在多次的预测中,章鱼保罗一共只选择了三个国家——德国、西班牙、塞尔维亚。
如果你去网上查看这三个国家的国旗,你应该已经知晓了真相——不是章鱼保罗有预测比赛结果的超能力,它只是选择了自己喜欢的图案罢了。
数据偏差
要为特定的目的得到精确的数据,常常会遇到各种阻碍,如关键词语的模棱两可,人们不愿提供真实的信息,需要保密的各种事件等,因此统计数据的形式往往只能是基于事实作出的一些估计,这些估计有时是存在欺骗性的。
——40%的大学生饱受抑郁症的折磨!
看到这一新闻标题时,你有什么想法?你是会为年轻人的心理状况感到担忧,还是会反问这个统计数字是怎么得来的?不知来历的统计数字,往往能带给人深刻的印象,或是让人肃然起敬,但这些数字的精确性常常令人怀疑。在对这样的数据作出反应之前,我们很有必要问一句:这些数据是怎么得来的?
多含义的平均值
每次见到平均值的时候,不仅要确定这个平均值是平均数、中位数还是众数,还要判定最小数值与最大数值之间的差距,即全距以及每个数值出现的频率,也就是数值分布。如果不搞清楚这些,贸然地相信一个平均值,可能会让我们难以看清真相。
测定平均值的方法有三种,每种方法都可以给出不同的数值:
〇平均数:把所有数值相加,用总数除以相加的数目。
〇中位数:将所有数值从高到低排列,位于最中间的一个数值或两个数值的平均数。
〇众数:计算不同数值出现的次数,找出出现频率最高的数值。
——“相关调查显示,大学生每周平均花在学习上的时间是12.8小时,与20年前的大学生相比学习时间少了一半。”
你怎么看待这一结论?它是否能证明,当代大学生们在学业方面付出的努力变少了?当然不能,我们要看这里的平均值是按照哪一种方式计算的:如果有些学生花了很多的时间在学习上,比如一周30~40个小时,平均数值就会被拉高,但不影响中位数或众数的数值。所以,如果这里列举的平均值是平均数,那我们还可能高估了平均的学习时间。
——“这个病预后情况不太乐观,患同样癌症的病人存活时间的中位数是10个月,你们不妨考虑一下,在病人生命最后的这段时间里,如何提高一下生活质量吧!”
听到医生给出这样的“审判声”,作为病人家属会是什么心情呢?
先别急着沮丧,医生说的话,可以让我们明确知道患这种癌症的病人有一半不到10个月就去世了,另一半人存活时间超过了10个月。但仅仅知道这些还不够,我们还需要了解活下来的那些人的存活时间的全距和数值分布!
也许,存活时间超过10个月的病人的数值全距和分布会显示:有些人甚至很多人存活的时间远不只10个月,甚至活到了70~80岁!知道病人存活情况的完整分布,可能会改变病人和家属对当下处境的看法,用更恰当的心态去处理问题。
乱用结论
有些数据可以证明一件事,但这并不意味着可以用这些数据去证明另一件性质截然不同的事。如果有人这样做,那么此时的数据就无法作为可靠的证据。
——“如果你乘坐这个城市的地铁,你很可能会丢手机。我刚读了一份统计数字,说小型电子产品占地铁系统失窃率的70%。”
上述的数据只能证明,地铁系统的大部分偷窃行为都和小电子产品有关,但它没有证明这类偷窃行为发生的概率有多大。
打开一切科学的钥匙毫无异议的是问号。面对权威,面对真实的数据,面对看似严谨的理论,我们都需要并且敢于质疑。
——巴尔扎克