近期,科普视频博主毕导发布了一期名为《世界是对数的》的视频,引发了广泛讨论。视频中展示了一个奇妙的现象:生活中有很多数字符合“本福特定律”,如随机在社交媒体上刷新视频,会发现这些视频的点赞数,其首位数字(例如,1.8万赞的首位数字是1,98万赞的首位数字是9)的分布极不均匀——大约有30%的视频点赞数是以“1”开头的。视频介绍了这个被称为“本福特定律”的及更深入的对数均匀分布现象,但并未深入解释其在社交网络中的成因。
图 1 毕导《世界是对数的》视频截图
本文旨在阐明,这一现象并非巧合或所谓的平台“玄学” ,其背后是数学定律与现代推荐算法共同作用的必然结果 。本文将深入剖析本福特定律如何内嵌于社交平台以乘法为核心的推荐逻辑之中,并系统论述这一规律如何塑造了当下的信息传播生态。理解这一机制,不仅能帮助我们看清社交媒体信息流的构建方式,更能为舆情分析与研判工作提供一个新颖、深刻且具备数据科学支撑的分析视角 。
本小节会带没有看过毕导视频的读者快速了解下本福特定律,已经有所了解的可跳过此节。
本福特定律,又称“第一数字定律”(First-Digit Law),是一种揭示在真实、自然产生的海量数据集中,首位数字分布规律的统计学原理 。该定律最早在19世纪末由天文学家西蒙·纽康所发现 。与人们通常认为数字1到9作为首位数出现概率均等(即各占约11.1%)的直觉不同,本福特定律指出,这些数字的出现概率呈系统性的不均衡分布 。具体而言,以“1”作为首位数字的数,其出现概率约为30%,而随着首位数字的增大,其出现概率则呈现递减趋势 。
这个定律可以用一个简洁的数学公式来描述,即首位数字为 d(d 是从1到9的整数)的概率 P(d) 为:
本福特定律并非普遍适用,其有效性依赖于数据集满足以下三个关键前提 :
跨越多个数量级:数据必须分布在广阔的范围内,例如,数值涵盖从几百到几百万 。单一数量级内(如身高、年龄)的数据通常不符合该定律。。
非人为设定限制:数据是自然产生或记录的,未经过人为的编辑、限制或设定上下限(如考试分数、电话号码)。
源于乘法过程:数据最好是由多个因素相乘产生的结果 。例如,公司利润由“销售量 × 单价 × 利润率”等多个变量相乘决定。
该定律广泛存在于各类真实世界的数据中,如各国的GDP、人口数量、财务报表、股票价格,乃至河流的长度和物理常数等 。
为了验证社交媒体上的用户行为数据(以点赞数为例)为何会遵循本福特定律,我们需审视其数据生成过程是否满足前述的三项前提条件 。其核心在于理解现代社交媒体的命脉——推荐算法。
过去,各大平台的核心推荐算法如同“黑箱”,其运行机制对外保密 。然而,随着国家网信部门对算法透明化的要求,主流平台相继公开了其推荐算法的基本逻辑 。以抖音公布的推荐模型为例,其核心是“推荐优先级公式”:综合预测用户行为概率 × 行为价值权重 = 视频推荐优先级。
这个公式中的“综合预测用户行为概率”本身就是由用户点赞、评论、收藏等多个概率因子相乘构成 ,而“行为价值权重”则包含了用户价值、作者价值、平台价值等多个维度 。
基于此,我们可以判定,由该算法驱动的数据完全符合本福特定律的适用前提:
源于乘法过程:推荐算法的核心即为一系列复杂的乘法运算,通过将不同维度的指标相乘来决定内容的最终推荐权重 。
跨越多个数量级:在算法的加持下,视频的播放量与点赞数能够轻易地跨越从个位数到数千万的巨大数量级范围 。
数据自然产生:视频的曝光和传播主要由算法依据数据表现自动调节,而非人为强行干预或限制,符合自然记录的特性。
既然“视频推荐优先级”符合定律,那么“视频点赞数”呢?两者之间存在着清晰的传导关系。我们可以进行一个简单的逻辑推导 :
我们已知:
视频推荐优先级 ≈ (用户行为概率) × (行为价值权重)
并且,平台的推荐系统会根据这个“优先级”来分配流量,所以:
推荐次数 ≈ C × 视频推荐优先级 (其中C是一个由平台流量决定的系数)
又因为:
点赞数 ≈ 推荐次数 × 平均点赞率
将它们结合起来,我们可以得到:
点赞数 ≈ C × [(用户行为概率) × (行为价值权重)] × 平均点赞率
这个公式清晰地表明,“点赞数”这一我们能直接观测到的数据,其最终形成依然是一个由各类因子环环相扣、层层相乘所决定的结果 。因此,短视频的点赞数完美地满足了本福特定律的全部适用条件,其首位数字分布自然会呈现出“1”占主导的现象 。
本福特定律看似神秘,但其背后有坚实的数学原理支撑。我们可以从直观和理论两个层面来理解它。
1. 直观理解:
想象一下一个视频的点赞数正在增长,它就像一个登山者正在攀登一座数字高峰:
要从1万赞爬升到2万赞,点赞数需要翻一倍,即实现100%的增长。
要从8万赞爬升到9万赞,点赞数仅需增长12.5%。
要从9万赞爬升到10万赞,点赞数仅需增长约11%。
这意味着,在一个数量级内(如万位级),首位数字“1”所占据的“赛道”是最宽、最漫长的 。一个数值停留在“1字头”(如10000-19999)区间所需完成的“增长任务”,远比停留在“8字头”或“9字头”等后续区间更为艰巨和耗时 。因此,当我们在任意时间点对海量视频数据进行“随机快照”(即我们刷新信息流的行为)时,观测到正处于“1字头”区间的视频的概率,自然就远高于其他数字开头的区间 。
2. 数学原理:
这里用尽量简单的语言描述下原理。如需严格的数学证明可以参见论文《A Statistical Derivation of the Significant-Digit Law》。其核心逻辑在于,多个独立因素的相乘,在对数变换和中心极限定理的作用下,其结果的首位数字会趋向于本福特分布 。
(1)多个独立因素相乘:一个结果(Y)由多个独立的随机因素(F₁, F₂, ..., Fₙ)相乘得到 。
(2)对数变换:对等式两边取对数,将乘法关系转化为加法关系:log(Y)=log(F1)+log(F2)+⋯+log(Fn) 。
(3)中心极限定理:根据中心极限定理,大量独立随机变量之和,其分布会趋向于正态分布 。在本案例中,由于因素众多,形成的将是一个方差很大的正态分布 。
(4)对数尾数均匀分布:一个关键的数学性质是,当一个随机变量的对数服从一个局部平坦(方差很大)的分布时,其对数值的小数部分(即“对数尾数”)会趋向于在[0, 1)区间上均匀分布 。
(5)形成本福特分布:对数尾数的均匀分布,在通过反对数运算转换回原始数据尺度后,直接导致了其首位数字呈现出本福特定律所描述的非均匀分布 。
3. 从数学原理推导出的关键结论
理解上述数学机理,能为我们提供几条极具实践价值的推论:
算法的复杂性是前提:只有当算法的乘法因子足够多(通常认为大于10个),才会产生显著的本福特分布效应 。这印证了现代推荐算法的高度复杂性。
结果对系数调整具有稳健性:简单地改变算法公式中各个因子的权重系数,并不会改变最终结果数据遵循本福特定律这一事实 。
结果对直接篡改具有敏感性:如果直接对符合本福特定律的结果数据进行人为修改或伪造(如购买“水军”刷赞),会导致数据分布偏离本福特定律 。这为识别数据异常和流量造假提供了有力的检测工具。
基于对推荐算法与本福特定律内在关联的剖析,我们可以得出一个核心结论:纯粹由算法驱动的舆论场,其运行逻辑必然会导致热度的极端分化 。这一规律深刻揭示了当前数字舆论生态的结构性特征,并为舆情分析与研判工作提供了全新的、基于数据科学的视角 。
1. 揭示舆论场的内在结构性风险
现代推荐算法以乘法为核心的内在机制,塑造了“赢家通吃”的舆论格局,并带来了以下两方面的结构性风险:
舆论焦点的过度集中与议题窄化:算法的乘法机制会天然地将巨大流量汇集于少数能高效触发用户互动(如争议、情绪)的“爆款”议题上。这导致公共议题日益狭窄和极化,大量虽有价值但不够“刺激”的话题因无法在算法竞赛中胜出而被边缘化,削弱了舆论场的多元性与深度。
“算法操纵”的隐蔽性与强大威力:平台方只需对乘法公式中的某个权重进行微调,就能在外界难以察觉的情况下,极大改变舆论场的议题流向和热度分布。这赋予了平台一种隐蔽而强大的议程设置能力,其背后可能隐藏着商业利益或其他动机。
为应对算法带来的舆论极化与隐性议程设置风险,网信部门的核心监管思路应双管齐下:一方面,需强制平台优化算法,在追求用户互动指标的同时,主动引入内容多样性与公共价值权重,以抑制流量过度集中于少数议题 ;另一方面,应建立常态化的算法透明与审计制度,要求平台报备核心推荐逻辑并接受外部审查,从而利用本福特定律等工具发现和规制潜在的数据操纵行为,确保其强大的议程设置权力受到有效监督。
2. 构建舆情分析的全新工具箱
将算法运行逻辑及其数据规律引入分析工作,能够极大提升分析师的“穿透性”视野,形成一套行之有效的分析工具。
从“现象”到“机制”的归因分析:在分析热点事件时,不应止步于“事件火了”的观察。应进一步追问:“它是通过在算法的哪个或哪几个乘法因子(如完播率、评论率)上表现突出,从而赢得流量竞赛的?”。这种基于机制的分析,有助于更深刻地理解舆情引爆的内在逻辑。
作为“数据验真”的检测工具:舆情分析师可将本福特定律作为一个强大的“数据反常”检测基准。在面对热点事件的互动数据时,可对其进行首位数分布检验。一旦发现数据与定律存在显著偏差,就可将其作为识别“伪热点”或数据造假的重要研判线索。
评估与规划议题的“爆款潜质”:在进行正面宣传或议题策划时,可以反向运用此规律。通过思考如何设计内容,使其能够在算法的各个乘法环节上获得较高的初始值(如以悬念保证完播率、以争议性鼓励评论),从而评估并提升议题的传播潜力。
提升舆情研判报告的科学性与说服力:在撰写报告时,若能从“算法乘法机制”和“本福特分布”等角度解释舆情事件的爆发逻辑或数据异常,将极大增强报告的客观性、科学性和专业深度,使其结论更具说服力,为决策提供更高质量的参考。
本篇文章阐释了社交媒体上视频点赞数等数据普遍遵循“本福特定律”(即首位数字为1的概率约占30%)的现象 。 其根本原因在于,平台的推荐算法通过将用户的点赞率、评论率等多个因素进行乘法运算来决定内容的曝光度 。 这一基于乘法核心的算法机制,不仅天然地促成了“赢家通吃”的舆论极化格局 ,也为舆情工作者提供了一个全新的分析工具:既可以此为基准来识别伪造的“伪热点” ,也能据此深入剖析内容获得巨大流量背后的引爆逻辑 。