如何识别数据造假(1 / 1)

美国安然公司曾是世界上最大的电力、天然气及电讯公司之一。2000年,它在财富世界500强中排名第16。然而,这个拥有上千亿资产的公司于2002年宣布破产,持续多年的财务数据造假丑闻随之曝光。据说财务数据造假被发现是因为公司公布的每股盈利数据严重偏离本福特定理。

甄别数据造假确实不容易,尤其是面对数据量比较大的情况。

1881年美国天文学家西蒙·纽康在查阅对数表(当时想知道对数只能通过去图书馆查对数表)时发现了一个奇怪的现象:以1开头的数的那几页比其他页破烂得多。为此,他进行统计,发现了本福特定理。1938年,物理学家法兰克·本福特重新发现这个现象,还通过检查许多数据来证实这点。2009年,西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,为素数的本福特定律。这项发现可以应用于欺骗检测和股票市场分析等领域。

关键词:本福特定理

我们来直观地看本福特定理。首先计算1到100的阶乘,然后提取100个结果的最高位数,统计首位数是1到9的频数,利用python编程可得频数如下:

即数字1出现了30次,数字2出现了18次,数字3出现了13次,数字4出现了7次,数字5出现了7次,数字6出现了7次,数字7出现了3次,数字8出现了10次,数字9出现了5次。则首位为数字1的频率为0.3,数字2的频率为0.18,数字3的频率为0.13,数字4的频率为0.07,数字5的频率为0.07,数字6的频率为0.07,数字7的频率为0.03,数字8的频率为0.1,数字9的频率为0.05。

本福特和纽康都从数据中总结出首位数字为n的概率公式:

logd

应用本福特定律时的条件:非人为规律;数据跨度大,必须横跨好几个数量级才能使用。数据必须是不能按照规律排列的,比如身份证号码、发票编号,同时数据也不能经过人工干预,如果经过人工干预,数据就很难再符合本福特定律。因此这一条也成为鉴别账目数据是否经过人工改造的有利工具。手机号码、车牌号码、彩票号码、邮政编码等数据都不能应用本福特定律。这一定律最经典的应用场景是识别财务造假,还有国家地区人口数量、GDP、国土面积、大选数据造假、门牌号码、放射性元素的半周期、数的阶乘、银行的账户金额等。

比如有人怀疑2020年中国公布的几百个城市的新冠肺炎确诊数据,存在数据造假。在2020年4月28日,美国达拉斯联邦储备银行研究部高级经济师克里斯托弗科赫和英国牛津大学赛德商学院研究员肯恩冈村联合发表了一篇论文,证明中国没有操纵疫情数字。这篇论文通过研究中国、意大利和美国三个国家疫情的实时数据,发现中国实时播报的疫情数字与美国、意大利的数字一样,其分布都符合本福特定律,不存在疫情数字被操纵的可能。