COMP5313 - Chapter 18 Power Laws and Rich-Get-Richer Phenomena 幂律与富者愈富

Chapter 18: Power Laws and Rich-Get-Richer Phenomena(幂律与富者愈富)

教材:Networks, Crowds, and Markets: Reasoning about a Highly Connected World 作者:David Easley & Jon Kleinberg, Cambridge University Press, 2010


一、核心问题:为什么流行度如此不均衡

这一章讨论的是流行度 (popularity) 的分布。

典型现象:

  • 大多数网页、书、论文、歌曲、城市都只获得很少关注;
  • 少数对象获得非常多关注;
  • 极少数对象获得超级巨大的关注。

在 Web 中,网页的流行度可以用 in-links(入链数量) 衡量:

\[ k = \text{number of in-links to a page}. \]

核心问题是:

作为 \(k\) 的函数,有多少比例的网页拥有 \(k\) 条入链?

也就是研究:

\[ f(k) = \Pr[\text{a page has } k \text{ in-links}]. \]

这看起来像一个普通统计问题,但结果非常重要:流行度分布不是普通的钟形曲线,而是幂律。


二、为什么 normal distribution 不适合解释流行度

一个自然猜想是:网页入链数是否服从正态分布 (normal/Gaussian distribution)?

正态分布的基本特征是:

  • 大多数值集中在平均值附近;
  • 偏离平均值很多的极端值非常少;
  • 尾部下降很快,通常是指数级下降。

中心极限定理 (Central Limit Theorem) 给出正态分布常见的原因:

如果一个量是许多小的、独立随机因素相加而成,那么它通常近似服从正态分布。

如果 Web 链接是这样产生的:

  • 每个网页独立随机决定是否链接到另一个网页;
  • 某个网页的入链数是很多独立随机变量的和;

那么入链数应该近似正态分布,极高入链数的网页会极其罕见。

但真实 Web 数据不是这样。


三、幂律分布 (Power Law)

真实测量发现,拥有 \(k\) 条入链的网页比例大约满足:

\[ f(k) \propto \frac{1}{k^c}, \]

其中 \(c\) 通常略大于 \(2\)。在教材例子中,Web 入链分布近似为:

\[ f(k) \propto \frac{1}{k^2}. \]

这类形式称为 power law(幂律)

3.1 幂律和指数下降的差别

幂律下降得很慢:

\[ \frac{1}{k^2} \]

\(k=1000\) 时仍然是:

\[ \frac{1}{1000^2} = \frac{1}{1,000,000}. \]

但指数下降如:

\[ 2^{-k} \]

\(k=1000\) 时几乎小到不可见。

所以幂律分布的核心含义是:

极端热门对象不是异常,而是会以可观概率出现。

这解释了为什么 Web 上会有 Google、Wikipedia 这类拥有巨大入链数的页面,也解释了为什么论文引用、电话呼叫、图书销量等流行度指标经常出现极端不均衡。


四、如何检测幂律:log-log plot

假设:

\[ f(k) = \frac{a}{k^c}. \]

写成:

\[ f(k) = ak^{-c}. \]

两边取对数:

\[ \log f(k) = \log a - c \log k. \]

这是一条直线形式:

\[ y = b + mx, \]

其中:

  • \(y = \log f(k)\)
  • \(x = \log k\)
  • 截距为 \(\log a\)
  • 斜率为 \(-c\)

所以检测幂律的常用方法是:

  1. 横轴画 \(\log k\)
  2. 纵轴画 \(\log f(k)\)
  3. 如果图像近似一条直线,则数据可能符合幂律;
  4. 直线斜率的绝对值就是幂律指数 \(c\)

考试要点:

幂律在 log-log plot 上表现为直线;斜率越负,尾部下降越快。


五、富者愈富模型 (Rich-Get-Richer Model)

幂律为什么会出现?教材给出的核心机制是:

流行度越高,未来越容易获得更多关注。

这叫 rich-get-richer effect(富者愈富效应),也叫 preferential attachment(优先连接)

5.1 Web 链接复制模型

假设网页按顺序生成:

\[ 1,2,3,\ldots,N. \]

当新网页 \(j\) 生成时,它向一个已有网页创建一条链接。规则如下:

  1. 以概率 \(p\),网页 \(j\) 从所有早期网页中均匀随机选一个网页 \(i\),并链接到 \(i\)
  2. 以概率 \(1-p\),网页 \(j\) 从所有早期网页中均匀随机选一个网页 \(i\),但不链接到 \(i\),而是复制 \(i\) 的链接,链接到 \(i\) 指向的网页。

第二步是关键。它表示:

新网页作者会模仿已有网页作者的链接选择。

如果某个网页已经有很多入链,那么随机选到一个指向它的网页的概率就更高;复制这个网页的链接时,就更可能继续链接到它。

因此:

\[ \Pr[\text{new link points to page } x] \propto \text{current in-links of } x. \]

这就是 preferential attachment:

一个节点获得新链接的概率与它当前已有的链接数成正比。


六、为什么富者愈富会产生幂律

富者愈富的增长逻辑类似复利:

\[ \text{growth rate} \propto \text{current popularity}. \]

如果一个网页早期因为随机波动稍微领先,它之后会更容易被复制和链接,从而进一步扩大领先优势。

和正态分布背后的独立随机因素不同:

  • 正态分布中,随机误差容易相互抵消;
  • 富者愈富中,早期优势会被反馈机制放大。

这就是幂律产生的直觉基础。


七、富者愈富效应的不可预测性

富者愈富不仅会产生不平等,也会产生不可预测性 (unpredictability)

原因是:

早期随机波动会被后续反馈放大。

一个网页、一本书、一首歌是否爆红,可能取决于早期很小的偶然优势。一旦优势形成,rich-get-richer 会继续推动它变得更热门。

7.1 音乐下载实验

Salganik, Dodds, and Watts 做过一个实验:

  • 建立一个音乐下载网站;
  • 放入 48 首不知名歌曲;
  • 访问者可以试听并下载;
  • 用户会看到每首歌当前的下载次数;
  • 但用户被随机分配到 8 个互相独立的“平行世界”版本。

每个平行世界一开始完全相同,但之后会因为用户行为而独立演化。

结果:

  • 不同平行世界中,歌曲的市场份额差异很大;
  • 好歌一般不会垫底,差歌一般不会登顶;
  • 但具体哪首歌最火,很难预测。

实验还设置了一个没有下载次数反馈的版本。没有反馈时,歌曲之间的市场份额差异明显更小。

结论:

社会反馈会增加结果的不平等,也会增加成功路径的不确定性。


八、幂律与信息级联的关系

信息级联和富者愈富有共同点:

  • 都由人群中的相互影响产生;
  • 都可能让早期少量信息被放大;
  • 都可能导致结果对初始条件敏感。

但两者也有区别:

模型 选择对象 机制
信息级联 通常是两个选择,如 accept/reject 个体根据前人行为做贝叶斯推断
富者愈富 很多可选对象,如网页、歌曲、书 后来者复制或偏向已有热门选择

教材指出,一个更深的问题是:

能否把富者愈富的复制行为,也从更基础的理性决策模型中推导出来?

这可以理解为:流行度幂律可能来自许多相互竞争的信息级联。


九、长尾 (The Long Tail)

幂律分布不仅解释头部超级热门对象,也解释尾部大量小众对象。

媒体产业中的问题是:

销售额主要来自少数爆款,还是来自大量小众产品的总和?

传统实体店受空间限制,只能摆放热门商品;但互联网平台如 Amazon、Netflix 可以储存和展示巨大库存,因此可以从大量小众商品中获得可观收益。

这就是 Long Tail(长尾)

9.1 从 popularity plot 到 rank plot

前面研究的是:

\[ f(k) = \text{拥有 popularity } k \text{ 的对象比例}. \]

长尾讨论更常用 rank plot / Zipf plot

  • 第 1 名最热门;
  • 第 2 名次热门;
  • \(j\) 名的销量为 \(k\)

横轴是排名 \(j\),纵轴是销量 \(k\)

如果曲线向右缓慢下降,说明虽然每个小众产品销量不高,但右侧尾部很长,累计起来可能很重要。

9.2 长尾的商业含义

曲线左侧面积代表爆款产品贡献;

\[ \text{hits revenue} \]

曲线右侧面积代表小众产品贡献;

\[ \text{niche products revenue}. \]

如果右侧总面积很大,平台就可以通过大量小众产品获利。

考试理解:

幂律既说明头部超级热门对象存在,也说明尾部大量小众对象合起来可能有重要规模。


十、搜索工具和推荐系统的影响

搜索引擎和推荐系统对富者愈富有双重影响。

10.1 可能放大富者愈富

如果搜索引擎总是把热门页面排在前面,那么:

  1. 热门页面更容易被用户看到;
  2. 用户更可能继续链接或点击这些页面;
  3. 这些页面变得更热门;
  4. 排名继续升高。

这会进一步强化不平等。

10.2 也可能削弱富者愈富

另一方面,用户搜索的 query 非常多样化。对于小众 query,搜索工具可能帮助用户发现原本很难通过浏览找到的小众页面。

推荐系统也是如此:

  • 如果只推荐热门内容,会强化头部;
  • 如果根据用户兴趣推荐小众内容,就能帮助长尾产品被发现。

所以搜索和推荐系统是更高层次的反馈机制:

它们可以放大、削弱,甚至重新塑造 rich-get-richer dynamics。


十一、可选推导:富者愈富模型的幂律指数

这一节对应教材 18.7 Advanced Material。考试若不要求推导,理解结论即可。

设页面 \(j\) 在时间 \(t\) 的入链数为 \(X_j(t)\)。用连续函数 \(x_j(t)\) 近似它。

新链接指向页面 \(j\) 的概率由两部分组成:

  1. 均匀随机选择:概率贡献 \(\frac{p}{t}\)
  2. 富者愈富选择:概率贡献 \(\frac{(1-p)x_j(t)}{t}\)

因此近似增长方程为:

\[ \frac{dx_j}{dt} = \frac{p}{t} + \frac{(1-p)x_j}{t}. \]

令:

\[ q = 1-p. \]

则:

\[ \frac{dx_j}{dt} = \frac{p+q x_j}{t}. \]

解这个微分方程并使用初始条件 \(x_j(j)=0\),得到:

\[ x_j(t) = \frac{p}{q} \left[ \left(\frac{t}{j}\right)^q - 1 \right]. \]

由此可以推出,入链数至少为 \(k\) 的节点比例近似满足:

\[ F(k) \propto k^{-1/q}. \]

因此入链数恰好为 \(k\) 的节点比例满足:

\[ f(k) \propto k^{-(1+1/q)}. \]

因为 \(q=1-p\),幂律指数为:

\[ c = 1 + \frac{1}{1-p}. \]

解释:

  • \(p \to 1\) 时,几乎都是均匀随机链接,富者愈富很弱,\(c \to \infty\),极端热门节点变少;
  • \(p \to 0\) 时,几乎都是复制/优先连接,富者愈富很强,\(c \to 2\),极端热门节点更常见。

十二、本章考试级总结

  1. 流行度通常不是正态分布,而是幂律分布。
  2. 幂律形式:

\[ f(k) \propto \frac{1}{k^c}. \]

  1. 幂律在 log-log plot 上表现为直线,斜率为 \(-c\)
  2. 幂律尾部下降慢,所以极端热门对象会以非忽略概率出现。
  3. 富者愈富/优先连接机制:

\[ \Pr[\text{new link to } x] \propto \text{current popularity of } x. \]

  1. 富者愈富会放大早期随机优势,因此结果既不平等又不完全可预测。
  2. 长尾说明大量小众对象的总贡献可能非常大。
  3. 搜索和推荐系统既可能强化头部,也可能帮助用户发现长尾。

十三、常见坑点

  • 不要把幂律和正态分布混淆:正态分布尾部下降快,幂律尾部下降慢。
  • 不要只看平均值:在幂律分布中,平均值可能无法代表典型对象。
  • log-log 直线不等于普通坐标直线:检测幂律必须在对数坐标上看。
  • 富者愈富不是说质量不重要:质量可能影响初始成功,但社会反馈会放大早期差异。
  • 长尾不是否认爆款重要:它强调尾部小众产品累计起来也可能重要。