本福特定律(英文名:Benford's Law,别名:本福德法则),是美国天文学家、数学家Newcomb于1881年首次发现,后经物理学家本福特通过进一步的实证研究和验证,于1938年3月发表于《美国哲学学会论文集》上的数字统计定律。
本福特定律认为在一组随机的数字中,各个数字的首位存在一定规律,越小的数字出现的概率越高。本福特定律总结了自然生成的数据集首位数(第一位数)及其他各位数的分布规律,首位数为1~9的概率依次为30.1%、17.6%、12.5%、9.7%、7.9%、6.7%、5.8%、5.1%和4.6%。
由于本福特定律具有适用范围广、准确性高且不需增加外部数据或参数的特点,其被大量用于进行数据异常的侦测,如大样本数据异常点的侦测。且由于造假者进行数据伪造时很难编制出既满足本福特定律又符合数据逻辑的数据集,本福特定律还被大量用于伪造数据检测。
定义
本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数出现的概率约为总数的三成,接近期望值1/9的3倍,推广来说,越大的数字,以它为首位的数出现的概率就越低。
精确地用数学表述则是,在进位制中,以数字为首位数字的数出现的概率为。在十进制中,以数字为首位数字的数出现的概率为
以上参考资料
历史由来
天文学家纽康(Simon Newcomb)常常使用对数表进行计算。1881年,他发现对数表的前几页总是被人翻得多,书页甚至都有些破损了,而后面的书页几乎是全新的。他隐约感觉到:数字在自然界中出现的机会好像不是均等的,1开头的数特别多,所以才会有对数表的前几页被人翻烂,而后面的无人问津的情况发生。为此他写了一篇论文。可惜,他的论文没有引起人们的注意。半个世纪之后的1938年,物理学家本福特(Frank Benford)也发现了这个规律,他的发现引起了大家的关注,于是这个规律就被称为本福特定律。本福特收集了世界河流流域面积、人口、物理常数、数学数列、原子量、成本数据、报刊杂志中等20组数据,共计2万多个样本,计算了各组数据中1~9在第一位出现的频率。结果表明,有相当一部分数据集符合或基本符合对数分布律,也有一部分偏离对数分布律,但将所有数据集合并后,其结果非常接近对数分布律。本福特的研究成果发表于1938年3月《美国哲学学会论文集》,题为“反常的数字规律"。之所以“反常”,是因为按照直觉,数字出现在第一位的概率应该是相同的,但第一位数的对数分布律却背离了人们的直觉。本福特定律实质上是指数增长在世间万物的体现。在现实生活中,本福特定律可用于检查各种数据是否有造假。
1972年,Hal Varian提出该定律可用于检查某些公共计划经济数据的真伪。1992年,MarkJ.Nigrini在其博士论文《数字频率分析在所得税避税中的应用》中提出以该定律检查是否存在伪账。2009年,西班牙数学家在素数中发现了一种新模式,虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述为素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。
应用及条件
应用条件
第一,数据是自然产生的。例如,新生儿数量、死亡人数、世界各国国土面积等,就满足这个条件。而人为规定或者设计的,如电话号码、邮政编码,以及上文提到的老师特意设计的考试难度而产生的学生分数,都不满足这个条件。第二,数据的跨度大例如,不同国家的人口数,多的几十亿,少的只有几百万,就满足这一条件。而成人的身高基本在1.4~2.5米之间,哪怕统计全世界成人的身高,数据跨度都太小,就不满足这个条件。第三,数据量要足够大。如果总共只有十几个数据,那肯定是没法满足的。
应用范围
由于本福特定律适用范围广、准确性高且不需增加外部数据或参数的特点,近年来其被大量用于进行数据异常的侦测,如大样本数据异常点的侦测。且由于造假者进行数据伪造时很难编制出既满足本福特定律又符合数据逻辑的数据集,本福特定律还被大量用于伪造数据检测。本福特定律是一条初看起来有些奇怪、不符合直觉的定律,不过这条定律用处很大。后来数学家证明了它的结论。由于本福特定律适用于大多数财务方面的数据,因此在现实生活中,它可以用来检查财务数据是否造假。