当前位置: 首页>> 舆情研究 >>正文

为什么随机刷到的视频的点赞数,首位数字三成是1? --谈本福特定律、社交网络推荐算法和对舆情工作这的启示

"速读全网"舆情,了解传播路径,把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

近期,科普视频博主毕导发布了一期名为《世界是对数的》的视频,引发了广泛讨论。视频中展示了一个奇妙的现象:生活中有很多数字符合“本福特定律”,如随机在社交媒体上刷新视频,会发现这些视频的点赞数,其首位数字(例如,1.8万赞的首位数字是1,98万赞的首位数字是9)的分布极不均匀——大约有30%的视频点赞数是以“1”开头的。视频介绍了这个被称为“本福特定律”的及更深入的对数均匀分布现象,但并未深入解释其在社交网络中的成因。

 图 1 毕导《世界是对数的》视频截图

本文旨在阐明,这一现象并非巧合或所谓的平台“玄学” ,其背后是数学定律与现代推荐算法共同作用的必然结果 。本文将深入剖析本福特定律如何内嵌于社交平台以乘法为核心的推荐逻辑之中,并系统论述这一规律如何塑造了当下的信息传播生态。理解这一机制,不仅能帮助我们看清社交媒体信息流的构建方式,更能为舆情分析与研判工作提供一个新颖、深刻且具备数据科学支撑的分析视角 。

一、什么是本福特定律

本小节会带没有看过毕导视频的读者快速了解下本福特定律,已经有所了解的可跳过此节。

本福特定律,又称“第一数字定律”(First-Digit Law),是一种揭示在真实、自然产生的海量数据集中,首位数字分布规律的统计学原理 。该定律最早在19世纪末由天文学家西蒙·纽康所发现 。与人们通常认为数字1到9作为首位数出现概率均等(即各占约11.1%)的直觉不同,本福特定律指出,这些数字的出现概率呈系统性的不均衡分布 。具体而言,以“1”作为首位数字的数,其出现概率约为30%,而随着首位数字的增大,其出现概率则呈现递减趋势 。

 

这个定律可以用一个简洁的数学公式来描述,即首位数字为 d(d 是从1到9的整数)的概率 P(d) 为:

本福特定律并非普遍适用,其有效性依赖于数据集满足以下三个关键前提 :

  • 跨越多个数量级:数据必须分布在广阔的范围内,例如,数值涵盖从几百到几百万 。单一数量级内(如身高、年龄)的数据通常不符合该定律。。

  • 非人为设定限制:数据是自然产生或记录的,未经过人为的编辑、限制或设定上下限(如考试分数、电话号码)。

  • 源于乘法过程:数据最好是由多个因素相乘产生的结果 。例如,公司利润由“销售量 × 单价 × 利润率”等多个变量相乘决定。

该定律广泛存在于各类真实世界的数据中,如各国的GDP、人口数量、财务报表、股票价格,乃至河流的长度和物理常数等 。

二、社交媒体本福特定律

为了验证社交媒体上的用户行为数据(以点赞数为例)为何会遵循本福特定律,我们需审视其数据生成过程是否满足前述的三项前提条件 。其核心在于理解现代社交媒体的命脉——推荐算法。

过去,各大平台的核心推荐算法如同“黑箱”,其运行机制对外保密 。然而,随着国家网信部门对算法透明化的要求,主流平台相继公开了其推荐算法的基本逻辑 。以抖音公布的推荐模型为例,其核心是“推荐优先级公式”:综合预测用户行为概率 × 行为价值权重 = 视频推荐优先级

这个公式中的“综合预测用户行为概率”本身就是由用户点赞、评论、收藏等多个概率因子相乘构成 ,而“行为价值权重”则包含了用户价值、作者价值、平台价值等多个维度 。

基于此,我们可以判定,由该算法驱动的数据完全符合本福特定律的适用前提:

  • 源于乘法过程:推荐算法的核心即为一系列复杂的乘法运算,通过将不同维度的指标相乘来决定内容的最终推荐权重 。

  • 跨越多个数量级:在算法的加持下,视频的播放量与点赞数能够轻易地跨越从个位数到数千万的巨大数量级范围 。

  • 数据自然产生:视频的曝光和传播主要由算法依据数据表现自动调节,而非人为强行干预或限制,符合自然记录的特性。

既然“视频推荐优先级”符合定律,那么“视频点赞数”呢?两者之间存在着清晰的传导关系。我们可以进行一个简单的逻辑推导 :

我们已知:

视频推荐优先级 ≈ (用户行为概率) × (行为价值权重)

并且,平台的推荐系统会根据这个“优先级”来分配流量,所以:

推荐次数 ≈ C × 视频推荐优先级 (其中C是一个由平台流量决定的系数)

又因为:

点赞数 ≈ 推荐次数 × 平均点赞率

将它们结合起来,我们可以得到:

点赞数 ≈ C × [(用户行为概率) × (行为价值权重)] × 平均点赞率

这个公式清晰地表明,“点赞数”这一我们能直接观测到的数据,其最终形成依然是一个由各类因子环环相扣、层层相乘所决定的结果 。因此,短视频的点赞数完美地满足了本福特定律的全部适用条件,其首位数字分布自然会呈现出“1”占主导的现象 。

三、从直观现象到数学机理

本福特定律看似神秘,但其背后有坚实的数学原理支撑。我们可以从直观和理论两个层面来理解它。

1. 直观理解:

想象一下一个视频的点赞数正在增长,它就像一个登山者正在攀登一座数字高峰:

  • 要从1万赞爬升到2万赞,点赞数需要翻一倍,即实现100%的增长。

  • 要从8万赞爬升到9万赞,点赞数仅需增长12.5%。

  • 要从9万赞爬升到10万赞,点赞数仅需增长约11%。

 

这意味着,在一个数量级内(如万位级),首位数字“1”所占据的“赛道”是最宽、最漫长的 。一个数值停留在“1字头”(如10000-19999)区间所需完成的“增长任务”,远比停留在“8字头”或“9字头”等后续区间更为艰巨和耗时 。因此,当我们在任意时间点对海量视频数据进行“随机快照”(即我们刷新信息流的行为)时,观测到正处于“1字头”区间的视频的概率,自然就远高于其他数字开头的区间 。

2. 数学原理:

这里用尽量简单的语言描述下原理。如需严格的数学证明可以参见论文《A Statistical Derivation of the Significant-Digit Law》。其核心逻辑在于,多个独立因素的相乘,在对数变换和中心极限定理的作用下,其结果的首位数字会趋向于本福特分布 。

  • (1)多个独立因素相乘:一个结果(Y)由多个独立的随机因素(F₁, F₂, ..., Fₙ)相乘得到 。

  • (2)对数变换:对等式两边取对数,将乘法关系转化为加法关系:log(Y)=log(F1)+log(F2)+⋯+log(Fn) 。

  • (3)中心极限定理:根据中心极限定理,大量独立随机变量之和,其分布会趋向于正态分布 。在本案例中,由于因素众多,形成的将是一个方差很大的正态分布 。

  • (4)对数尾数均匀分布:一个关键的数学性质是,当一个随机变量的对数服从一个局部平坦(方差很大)的分布时,其对数值的小数部分(即“对数尾数”)会趋向于在[0, 1)区间上均匀分布 。

  • (5)形成本福特分布:对数尾数的均匀分布,在通过反对数运算转换回原始数据尺度后,直接导致了其首位数字呈现出本福特定律所描述的非均匀分布 。

 

3. 从数学原理推导出的关键结论

理解上述数学机理,能为我们提供几条极具实践价值的推论:

  • 算法的复杂性是前提:只有当算法的乘法因子足够多(通常认为大于10个),才会产生显著的本福特分布效应 。这印证了现代推荐算法的高度复杂性。

  • 结果对系数调整具有稳健性:简单地改变算法公式中各个因子的权重系数,并不会改变最终结果数据遵循本福特定律这一事实 。

  • 结果对直接篡改具有敏感性:如果直接对符合本福特定律的结果数据进行人为修改或伪造(如购买“水军”刷赞),会导致数据分布偏离本福特定律 。这为识别数据异常和流量造假提供了有力的检测工具。

四、那么,这和舆情工作有什么关系?

基于对推荐算法与本福特定律内在关联的剖析,我们可以得出一个核心结论:纯粹由算法驱动的舆论场,其运行逻辑必然会导致热度的极端分化 。这一规律深刻揭示了当前数字舆论生态的结构性特征,并为舆情分析与研判工作提供了全新的、基于数据科学的视角 。

1. 揭示舆论场的内在结构性风险

现代推荐算法以乘法为核心的内在机制,塑造了“赢家通吃”的舆论格局,并带来了以下两方面的结构性风险:

  • 舆论焦点的过度集中与议题窄化:算法的乘法机制会天然地将巨大流量汇集于少数能高效触发用户互动(如争议、情绪)的“爆款”议题上。这导致公共议题日益狭窄和极化,大量虽有价值但不够“刺激”的话题因无法在算法竞赛中胜出而被边缘化,削弱了舆论场的多元性与深度。

  • “算法操纵”的隐蔽性与强大威力:平台方只需对乘法公式中的某个权重进行微调,就能在外界难以察觉的情况下,极大改变舆论场的议题流向和热度分布。这赋予了平台一种隐蔽而强大的议程设置能力,其背后可能隐藏着商业利益或其他动机。

为应对算法带来的舆论极化与隐性议程设置风险,网信部门的核心监管思路应双管齐下:一方面,需强制平台优化算法,在追求用户互动指标的同时,主动引入内容多样性与公共价值权重,以抑制流量过度集中于少数议题 ;另一方面,应建立常态化的算法透明与审计制度,要求平台报备核心推荐逻辑并接受外部审查,从而利用本福特定律等工具发现和规制潜在的数据操纵行为,确保其强大的议程设置权力受到有效监督。

2. 构建舆情分析的全新工具箱

  • 将算法运行逻辑及其数据规律引入分析工作,能够极大提升分析师的“穿透性”视野,形成一套行之有效的分析工具。

  • 从“现象”到“机制”的归因分析:在分析热点事件时,不应止步于“事件火了”的观察。应进一步追问:“它是通过在算法的哪个或哪几个乘法因子(如完播率、评论率)上表现突出,从而赢得流量竞赛的?”。这种基于机制的分析,有助于更深刻地理解舆情引爆的内在逻辑。

  • 作为“数据验真”的检测工具:舆情分析师可将本福特定律作为一个强大的“数据反常”检测基准。在面对热点事件的互动数据时,可对其进行首位数分布检验。一旦发现数据与定律存在显著偏差,就可将其作为识别“伪热点”或数据造假的重要研判线索。

  • 评估与规划议题的“爆款潜质”:在进行正面宣传或议题策划时,可以反向运用此规律。通过思考如何设计内容,使其能够在算法的各个乘法环节上获得较高的初始值(如以悬念保证完播率、以争议性鼓励评论),从而评估并提升议题的传播潜力。

  • 提升舆情研判报告的科学性与说服力:在撰写报告时,若能从“算法乘法机制”和“本福特分布”等角度解释舆情事件的爆发逻辑或数据异常,将极大增强报告的客观性、科学性和专业深度,使其结论更具说服力,为决策提供更高质量的参考。

本篇文章阐释了社交媒体上视频点赞数等数据普遍遵循“本福特定律”(即首位数字为1的概率约占30%)的现象 。 其根本原因在于,平台的推荐算法通过将用户的点赞率、评论率等多个因素进行乘法运算来决定内容的曝光度 。 这一基于乘法核心的算法机制,不仅天然地促成了“赢家通吃”的舆论极化格局 ,也为舆情工作者提供了一个全新的分析工具:既可以此为基准来识别伪造的“伪热点” ,也能据此深入剖析内容获得巨大流量背后的引爆逻辑 。


热门文章 换一换
文章推荐换一换
舆情监测关注问题换一换
舆情监测公司排名 舆情分析 舆情管理 舆情监测系统 全网舆情监测系统 舆情监测 舆论 舆情监测平台 互联网舆情监测 舆情监控系统 舆情监测服务平台 热点舆情 网络舆情分析报告 舆论聚焦 中山大学张鹏 超强台风山竹 个人所得税起征点 微博传播分析 网红直播 手机舆情监测 做好舆情监控 舆情监测报价 网络热点事件 舆情搜索 舆情预警系统 近期舆情 舆情报告 舆情 免费舆情软件 舆情监测方案 舆情监测解决方案 舆情是什么意思 网络舆情监测 舆情案例分析 专业舆情监测 媒体舆情监测 药品安全事件 长春长生疫苗事件 洁洁良 乐清女孩 新浪微舆情 网络舆情分析报告 2019网络舆情事件 山东寿光水灾 社会舆情 舆情监测哪家好 舆情监测方法 舆情监测报价 新浪舆情 手机舆情监测 近期舆情 网红直播 舆情事件 免费舆情监测软件 社会舆情 网络舆情监测系统 舆情监测报告 舆情监测软件 网络舆情监测公司 互联网舆情监测系统 舆情监测分析 舆情监控前几大公司 网络舆情监控软件 网络舆情监控系统 舆情监控是什么意思 免费舆情监控 互联网舆情监控系统 网络舆情分析 舆情 政务舆情 什么是舆情 新华网舆情在线 舆情监控系统 互联网舆情分析 社区舆情信息 网络舆情信息 网络舆情分析系统 网络舆情管理 人民舆情监控 军犬网络舆情监控系统 舆情监控 涉警舆情 鹰击 鹰眼舆情
标签云 换一换
网络传播规律 社交媒体舆情 深度学习算法 全网舆情监测 网络舆情 舆情研究 舆情预警系统 互联网舆情监测平台 农业舆情 农村舆情 舆情监测系统 乡镇舆情 舆情分析研判 短视频 舆情系统 舆情分析 应急舆情 舆情监测 灾害舆情 应急管理 舆情研判 网络舆情网 辖区舆情监测 属地舆情监测 行业舆情 舆情治理 互联网舆情治理 突发公共事件 地方舆情 舆情报告 交通舆情 疫情舆情分析报告 疫情舆情 抗击疫情 疫情舆情分析 社会事件舆情分析 社会舆论热点 大数据舆情分析 政务舆情 舆情传播 近期舆情 学校舆情 校园舆情 舆情汇总 大数据舆情监测 旅游舆情 AI舆情监测服务平台 人工智能 舆情监测平台 2025年舆情报告 月度舆情分析 大数据服务平台 舆情监测预警 网络舆情监测 舆情风险监测 互联网舆情分析 大数据舆情 景区舆情 舆情舆论汇总 市场监管 舆情周报 舆情信息收集 热点监测 教育舆情 舆情监测解决方案 网络舆情监测系统 免费舆情监测软件 舆情监测软件 鹰眼速读网 免费舆情监测系统 舆情预警 舆情日报 新闻传播理论 网络舆情监测公司 舆情监测工具 舆情管理 在线舆情监测 舆情监测方法 舆情查询 网络热词 涉警舆情 舆情风险 开源情报工具 信息挖掘 在线监测软件 2024年报告 舆情反转 视频舆情监测 社会舆情 假期舆情 消费舆情 文旅舆情 医院舆情 医疗舆情 舆情服务 舆情服务商 新闻舆情 民生舆情 舆情监测软件排名 舆情热点事件 网络安全 蚁坊软件 舆情事件 金融舆情 金融监督管理局 财经金融舆情监测 网络热点事件 公安舆情监测分析 公安类舆情 娱乐舆情 AI舆情监测服务 AI舆情服务 舆论监测 蚁坊 高校舆情 新媒体舆情 数据监测 舆情数据分析 网络舆情治理 网络综合治理 网络信息生态治理 舆情应对 舆论态势 舆情信息分析 舆情回应 公共事件舆情 舆情平台 舆情态势 老年人保护舆情 舆论风险防范 舆论监测软件 网络舆论监测 妇女儿童舆情 网红直播 中国食品药品安全舆情事件案例 网上舆情 安全生产 食品舆情 舆情搜索 涉稳舆情 航空舆情 舆情监测报价 传播路径分析 政府舆情 涉法舆情 检察舆情 网络舆情分析系统 谣言传播 舆情监测方案 网络社会热点舆情分析系统 免费大数据平台有哪些 互联网舆情监测系统哪家好 互联网舆情监测 2023年舆情分析报告 电力舆情 高考舆情 互联网舆情 政府舆情监测 舆情监测服务商 铁路舆情 如何网络舆情 能源舆情 企业舆情 政策舆情 危机公关 舆情告警 智慧城市 舆情案例 数据分析软件有哪些 网信办信息汇总 舆情监测哪家好 税务舆情 舆情处置 互联网舆情监测系统 生态环境舆情 负面舆情 消防救援舆情 舆情案例分析 地震舆情 明星舆情 新媒体舆情监测 自媒体舆情监测 舆情监控前几大公司 社交新全媒体监测系统工具平台公司 法治舆情 司法舆情 法院舆情 网红舆情 23年舆情报告 网络意识形态 涉毒舆情 科技舆情 鹰击早发现 监狱舆情舆论 大数据分析工具 做好舆情监控 政府舆情监测系统 媒体舆情 媒体舆论 网络在线教学舆情 烟草舆情舆论 会议舆情 媒体监测 环境舆情 情报分析 声量 舆情专报 次生舆情 舆情分析服务 舆论反应 信息战 舆论战 舆论趋势 新闻舆论阵地管理 自媒体传播 自媒体乱象 女权舆论 性别矛盾 民族宗教舆情 宗教舆情 银行舆情 2022年舆情报告 未成年人舆情 舆情引导 两会舆情 审计局 舆论失焦 政法舆情 网络实名制 舆情监督 奥运会 疫情搜索大数据 舆论知识点 新疆棉花 社会情绪指数 正面舆情 网络暴力 社会性死亡 辟谣 涉犬舆情 事件过程 鹰眼舆情 鹰击 清博大数据舆情 舆情格式 抗疫英雄事迹舆情 虚假新闻 什么是舆情 2020年舆情报告 2020年舆情 机器学习 舆论分析 舆情公关 虐童事件 反转新闻 网红 微舆情 微博传播分析 手机舆情监测 新浪舆情 新华舆情 2019网络热词 网络流行语 百度舆情监测 企业危机管理 315 网络舆情危机 互联网舆情监控系统 舆情是什么意思 德云社 网络舆论分析 大数据舆情监测案例 微博数据分析 舆情监测公司 2019舆情热点 犯罪舆情 股票舆情 消防舆情 微信舆情监测 民航舆情 人物舆情 公益舆情 感动中国 影视舆情 舆论监督 2019舆情 2018舆情事件盘点 2018舆情报告 雾霾舆情 港澳台舆情 涉军舆情 拆迁舆情 反腐舆情 海外舆情 信息惠民 体育舆情 强拆舆情 舆情指数 环保舆情