数据为何喜爱从“1”开始?
2021/01/25 | 作者 西班牙《国家报》网站 | 收藏本文
西班牙马德里自治区的179座城市中,大约三分之一的城市(准确地说是54座)都表现出居民人口数以“1”开头的特点。这是本福特定律的一个例子。本福特定律指出,从实际生活得出的数据中,以“1”为首位数字的数的出现概率约为总数的30%。
本福特定律可追溯至1880年,当时美国天文学家西蒙·纽科姆在整理一本对数表书籍时发现了一个有趣现象:以“1”开头的数,其所在的页数相较其他页数破损更多。这一观察逐渐被人们遗忘,直到1938年,这个现象才引起美国工程师兼物理学家弗兰克·本福特的注意。本福特在多个来源不同的数据集合上测试了这个现象,包括美国3259座城市的居民人口、1800种物质的分子量以及美国《读者文摘》月刊308期中出现的数字。纽科姆的“第一位定律”后来被命名为“本福特定律”。
然而,并非所有数据集合都遵循本福特定律。鞋码不符合这个规律,来源于随机进程的数据——如圣诞节彩票的中奖码——也不符合。即便如此,本福特定律依然体现在方方面面,如街道门牌号、股票价格、河流长度和国家面积等。稍作思考,就可以很容易地发现,这些数据以“1”开头的频率更高。
作为一般性规律,符合本福特定律的数据为表示规模的、不预设限制的数据(长度、人口等)。此外,数据覆盖的数量级越高,就越符合这项定律。从这个意义上来讲,本福特定律是正态分布的“亲戚”,而正态分布自然存在于各类统计现象中。
本福特定律也可应用于实际生活中。假设西班牙企业向大气排放的二氧化碳吨数满足本福特定律,如果一家公司提供的二氧化碳排放量数据中,有15%的数据以“8”开头,则我们有理由认为这家公司的数据存在作假嫌疑。这可能不是决定性证据,但可以成为调查此事件的线索。
相关报道
评论