Chapter 14: Link Analysis and Web Search(链接分析与网络搜索)

Chapter 14: Link Analysis and Web Search(链接分析与网络搜索)

教材:Networks, Crowds, and Markets: Reasoning about a Highly Connected World 作者:David Easley & Jon Kleinberg, Cambridge University Press, 2010


一、网络搜索的根本问题 (Section 14.1: Searching the Web - The Problem of Ranking)

1.1 信息检索的历史背景

信息检索(Information Retrieval)作为一个学术领域已经存在了几十年,其历史可以追溯到图书馆学和专利律师的工作实践。在互联网出现之前,搜索和组织信息主要依赖于受控的词汇体系(controlled vocabulary)和专业人士的手工分类。这种方法在信息有限的时代相对有效,因为重点是在众多文献中寻找"针尖"般稀缺的相关信息。

传统信息检索面临两个核心挑战:

同义词问题 (Synonymy):同一个概念可以用多种不同的方式表达。例如,"葱"既可以叫"香葱"(scallions),也可以叫"青葱"(green onions),这些不同的表达方式在文本中会相互独立,传统的基于关键词匹配的搜索方法很难将它们联系起来。

多义词问题 (Polysemy):同一个词可能有多个不同的含义。例如,"美洲虎"一词在英文中为Jaguar,它可以指代一种动物(animal)、美洲虎汽车品牌(car brand)或苹果公司的操作系统(OS)。搜索引擎需要根据上下文理解用户真正想要查询的是哪一个含义。

1.2 互联网时代的根本转变

互联网的出现彻底改变了信息搜索的格局,带来了从"信息稀缺"到"信息过剩"的范式转变:

从稀缺到过剩:在网络出现之前,搜索问题是"在有限的信息海洋中找到相关内容",就像在干草堆里寻找针尖。而在网络时代,任何搜索查询都可能返回成千上万甚至数百万个相关页面。真正的挑战不再是找到相关内容,而是从众多相关结果中筛选出最重要、最有价值的少数几个

动态内容的挑战:网络内容处于持续的、高速的变化中。一个经典的例子是2001年9月11日恐怖袭击发生时,许多搜索引擎会返回关于世界贸易中心大楼的历史信息,而不是实时的新闻报道。搜索排名算法必须能够快速适应新信息的出现和优先级的变化。

多元化的内容创作者:在网络之前,信息主要由少数机构(图书馆、出版社、政府)创建和维护。网络民主化了发布能力,每个人既是搜索者,也是潜在的内容创建者。这种多元性使得传统的受控词汇体系变得不适用。

1.3 网络结构的关键作用

解决这个排名问题的关键洞察是:网络页面之间的链接结构蕴含了重要的相关性和权威性信息。一个页面被许多其他相关页面链接到,这本身就是对其重要性的一种投票。换句话说,互联网的超链接结构反映了内容创建者(网站所有者)对各个页面重要性和相关性的集体判断。这个洞察成为现代网络搜索排名算法的基础。


2.1 入链投票的基本原理

链接分析的核心思想是:一个页面的重要性可以通过指向它的其他页面的重要性来衡量。当一个高质量的相关页面链接到某个页面时,这相当于对该页面的一次"投票"或"背书"(endorsement)。

以查询"康奈尔大学"(Cornell)为例:搜索结果中最高排名应该是www.cornell.edu。有趣的是,这个官方网站页面本身并不比其他包含"Cornell"字样的页面更频繁地使用"Cornell"这个词。那么为什么它的排名最高呢?答案是:许多其他相关的高质量页面(比如新闻网站、学术网站、目录网站)都链接到康奈尔大学的官方网站,这些链接有效地"投票"支持了这个页面的重要性。

2.2 发现高质量列表的算法思想

简单的入链计数(in-link counting)方法存在一个问题。以查询"报纸"(newspapers)为例,如果只按入链数量排序,纽约时报(New York Times)和今日美国(USA Today)会得到高分(这是正确的),但雅虎(Yahoo!)和亚马逊(Amazon)也会得到极高的分数,因为它们被网络上几乎所有页面链接(它们的通用流量很高,但不是真正的权威新闻来源)。

更精细的方法是识别"高质量列表"或"枢纽页面"(hubs)——那些链接到许多相关权威页面的页面。关键的创新是:

\[\text{页面作为列表的价值} = \sum_{q \to p} \text{页面q的重要性}\]

其中求和是对所有指向该页面的页面q进行的。换句话说,一个页面作为列表的价值不仅取决于有多少页面链接到它,更取决于那些链接到它的页面本身有多重要。

2.3 重复改进的原理

重复改进原理 (Principle of Repeated Improvement)是链接分析的核心迭代机制。其基本思想是:

  1. 初始权重:将所有页面的权重初始化为相同的值(例如1)
  2. 权威估计:基于指向每个页面的枢纽页面的权重,更新该页面的权威分数(authority score)
  3. 枢纽估计:基于该页面指向的所有权威页面的分数,更新该页面的枢纽分数(hub score)
  4. 迭代:重复步骤2和3,直到分数收敛

在"报纸"查询的例子中:

  • 第一轮:纽约时报和今日美国获得高权威分数(因为许多相关页面链接它们);报纸列表网站获得高枢纽分数(因为它链接到许多权威来源)
  • 第二轮:报纸列表网站的高枢纽分数意味着它对其链接目标的"投票"权重很大,所以纽约时报和今日美国的权威分数进一步增高;与此同时,与它们链接的页面的枢纽分数增高
  • 结果:通过这个过程,真正的权威新闻来源(纽约时报、今日美国)的排名上升,而通用门户网站(雅虎、亚马逊)的排名下降

这个过程可以无限迭代,每一轮迭代都会产生更好的估计,因为信息在网络中反复流动和精化。

2.4 枢纽和权威算法的正式定义

枢纽和权威 (Hubs and Authorities)算法(也称为HITS算法)为网络中的每个页面分配两个分数:

  • 权威分数 (Authority Score): 表示一个页面作为某个查询主题的权威来源的程度。权威页面是对特定查询高度相关且受许多其他相关页面链接的页面。
  • 枢纽分数 (Hub Score): 表示一个页面作为指向权威来源的列表或目录的程度。高质量的枢纽页面链接到许多权威页面。

算法步骤

\(n\) 为网络中的页面数量,对于每个页面 \(p\)

初始化\[\text{auth}(p) = 1, \quad \text{hub}(p) = 1 \quad \forall p\]

迭代更新 (第 \(k\) 次迭代):

权威更新规则: \[\text{auth}_k(p) = \sum_{q \to p} \text{hub}_{k-1}(q)\]

其中求和遍历所有指向页面 \(p\) 的页面 \(q\)。这意味着一个页面的权威分数是指向它的所有页面的枢纽分数之和。

枢纽更新规则: \[\text{hub}_k(p) = \sum_{p \to q} \text{auth}_{k-1}(q)\]

其中求和遍历所有页面 \(p\) 指向的页面 \(q\)。这意味着一个页面的枢纽分数是它所有出链目标的权威分数之和。

规范化:为了防止分数无限增长,在每次迭代后对分数进行规范化(例如除以最大值或进行L2规范化)。

收敛:随着迭代次数 \(k \to \infty\),规范化后的权威和枢纽分数收敛到固定的极限值。这些极限值是网络链接结构的固有属性,与初始值无关(只要初始值为正)。

2.5 算法的收敛性和平衡

HITS算法的一个重要性质是其收敛性:无论初始值如何设置(只要为正),重复应用更新规则最终都会导致分数收敛到相同的极限值。

这个收敛过程的数学基础来自于线性代数。权威和枢纽的更新规则可以用矩阵形式表示:

\[\text{auth}_k = A \cdot \text{hub}_{k-1}\] \[\text{hub}_k = A^T \cdot \text{auth}_{k-1}\]

其中 \(A\) 是网络的邻接矩阵 (其中 \(A_{ij} = 1\) 如果页面 \(i\) 链接到页面 \(j\),否则为0)。

平衡或平稳状态\[\text{auth}(p) \propto \sum_{q \to p} \text{hub}(q)\] \[\text{hub}(p) \propto \sum_{p \to q} \text{auth}(q)\]

这意味着:一个页面的权威分数与指向它的所有枢纽页面的权威分数成正比,而一个页面的枢纽分数与它指向的所有权威页面的枢纽分数成正比。这形成了一个完整的、自洽的评分系统。


三、PageRank算法 (Section 14.3: PageRank)

3.1 PageRank的哲学和基本概念

PageRank是一种不同于枢纽和权威的链接分析方法。它的核心哲学是:权威性在页面之间直接传递,而不需要区分枢纽和权威两种不同的角色

PageRank特别适用于那些重要页面之间存在直接引用关系的领域,比如学术论文和政府文档。在这些领域中,权威期刊直接引用其他权威期刊,权威决定直接引用其他权威决定。这与互联网的许多其他部分不同,后者往往存在大量的枢纽页面(如目录、列表、聚合器),这些页面本身不是权威,但指向许多权威。

3.2 基本的PageRank定义

PageRank使用一个优雅的"流体"(fluid)隐喻来定义:

基本PageRank更新规则: - 初始状态:网络中有 \(n\) 个页面,每个页面初始 PageRank 值为 \(\frac{1}{n}\),总PageRank为1 - 更新过程:在每一步中,每个页面将其当前的PageRank值平均分配给它的所有出链目标。如果一个页面没有出链,它将其所有PageRank保留给自己。 - 接收:每个页面从所有指向它的页面接收分配给它的PageRank份额

更正式地,设 \(\text{PR}_k(p)\) 为第 \(k\) 步后页面 \(p\) 的PageRank:

\[\text{PR}_{k+1}(p) = \sum_{q \to p} \frac{\text{PR}_k(q)}{d_{\text{out}}(q)}\]

其中 \(d_{\text{out}}(q)\) 是页面 \(q\) 的出链数量(出度,out-degree)。

关键性质:总PageRank在整个迭代过程中保持守恒(不需要像HITS那样的规范化),始终等于1。

3.3 具体示例:8个页面的PageRank计算

考虑一个包含8个页面A-H的具体例子(如教材中的Figure 14.6和14.7):

初始状态(步骤0): \[\text{PR}_0(A) = \text{PR}_0(B) = \cdots = \text{PR}_0(H) = \frac{1}{8}\]

假设的链接结构: - 页面F、G、H、D、E都指向页面A - 页面A指向B和C - (其他链接关系构成网络的其余部分)

第一步更新: - 页面A接收来自F、G、H、D、E的贡献,每个贡献其PageRank值的某一部分(取决于它们各自的出链数)。假设这些页面各有1个出链,则A接收 \(5 \times \frac{1/8}{1} = \frac{5}{8}\) - 页面B接收来自A的部分:如果A有2个出链(指向B和C),则B接收 \(\frac{5/8}{2} = \frac{5}{16}\)

平衡状态(多步迭代后): 在这个例子中,PageRank最终收敛到: \[\text{PR}(A) = \frac{4}{13}, \quad \text{PR}(B) = \text{PR}(C) = \frac{2}{13}, \quad \text{PR}(D) = \cdots = \text{PR}(H) = \frac{1}{13}\]

3.4 平衡状态和平稳分布

在足够多步迭代后,PageRank值会收敛到一个平衡或平稳状态(equilibrium)。在这个状态下,再次应用PageRank更新规则不会改变任何页面的值:

\[\text{PR}(p) = \sum_{q \to p} \frac{\text{PR}(q)}{d_{\text{out}}(q)}\]

所有页面的PageRank之和仍然为1。

验证平衡状态的方法是检查两个条件: 1. 所有PageRank值之和为1 2. 对每个页面 \(p\),应用更新规则后得到相同的值

如果网络是强连通的(strongly connected),即任意两个页面之间都存在有向路径,那么存在唯一的平衡状态。

3.5 PageRank的泄漏问题

基本的PageRank定义存在一个严重的问题:在非强连通的网络中,可能出现"泄漏"现象,导致所有PageRank最终集中在网络的某个子部分。

具体例子:假设页面集合的链接形成两个分离的"陷阱"(rank sinks): - 页面F和G相互链接,但不接收来自其他页面的链接 - 其他所有页面最终都直接或间接地链接到F或G

在这种情况下,PageRank会逐步"泄漏"到F和G,最终F和G各获得0.5的PageRank,而其他所有页面的PageRank都降至0。这显然不合理,因为用户实际上可以从网络的其他部分开始浏览。

3.6 缩放的PageRank更新规则

为了解决泄漏问题,引入了缩放的PageRank更新规则(Scaled PageRank Update Rule):

选择一个缩放因子 \(s\),通常在0.8到0.9之间(Google原始实现中使用0.85):

\[\text{PR}_{k+1}(p) = s \cdot \sum_{q \to p} \frac{\text{PR}_k(q)}{d_{\text{out}}(q)} + \frac{1-s}{n}\]

这个规则的含义可以用"水循环"隐喻来理解:

  1. 蒸发阶段:从所有页面蒸发掉 \((1-s)\) 单位的PageRank(总共蒸发 \((1-s) \cdot 1 = 1-s\) 单位,因为总PageRank为1)
  2. 凝聚和降雨阶段:这蒸发的 \((1-s)\) 单位均匀分布到所有 \(n\) 个页面,每个页面得到 \(\frac{1-s}{n}\)
  3. 传递阶段:基本的PageRank传递规则仅应用于剩余的 \(s\) 单位PageRank

等价的随机冲浪者解释:缩放的PageRank可以这样理解:

  • 用户访问网络时,在每一步有 \(s\) 的概率沿着当前页面的一个随机出链继续浏览,有 \(1-s\) 的概率随机跳转到网络上的任意页面(包括当前页面)
  • PageRank的极限值是随机冲浪者在每个页面上花费时间的长期比例

这个修改确保了对于任何网络拓扑(强连通或非强连通),缩放PageRank都会收敛到唯一的平衡分布。

3.7 随机游走的等价性

随机冲浪者模型(Random Surfer Model)提供了PageRank的另一种解释:

设想一个用户在网络上进行随机游走: - 从某个随机页面开始 - 在每一步,如果当前页面有出链,以概率 \(s\) 选择一个随机出链继续;以概率 \(1-s\) 跳转到网络上的任意随机页面 - 如果当前页面没有出链,则跳转到任意随机页面

\(\pi(p)\) 为这个随机游走在无限时间后位于页面 \(p\) 的概率(平稳分布或稳态概率),则:

\[\text{PR}(p) = \pi(p)\]

也就是说,一个页面的PageRank等于一个进行无限随机游走的用户最终停留在该页面的概率

这个解释提供了强大的直觉:PageRank高的页面是用户在随机浏览网络时最有可能访问到的页面。对于搜索排名,这符合直觉——最重要、最有影响力、最经常被访问的页面应该被排在靠前的位置。


4.1 PageRank在Google中的角色

PageRank是Google搜索引擎原始方法的核心组成部分。Google的创始人Larry Page和Sergey Brin在其博士论文中提出了这个算法,它成为了Google在1990年代晚期和2000年代初期的竞争优势来源之一。

PageRank提供了一个客观的、基于网络拓扑结构的排名指标,不易被垃圾邮件发送者(spam)操纵(相比之下,仅基于页面内容的排名很容易通过关键词填充(keyword stuffing)等技术被欺骗)。

4.2 排名方法的演变

随着时间推移,PageRank的重要性逐年下降。虽然它仍然是搜索排名的一个因素,但它不再是主导算法。这种演变反映了搜索技术的进步和互联网生态的变化。

2003-2004年Google大规模整改中,Google集成了多种排名信号,包括:

  • 内容相关性分析
  • 页面质量指标
  • 用户行为数据
  • 其他链接分析方法

Hilltop方法(由Bharat和Mihaila开发,被Google采用)是对枢纽和权威算法的扩展和改进。Hilltop方法认识到,对于特定查询,只有那些与查询高度相关的枢纽和权威才应该被考虑,而不是整个网络。这大大提高了结果的精确度。

Ask.com(当时名为Ask Jeeves)重建搜索引擎时,采用了更多基于枢纽和权威原理的方法,相比Google的PageRank方法。

4.3 综合链接、文本和用户行为

现代网络搜索不仅依赖链接结构,还综合考虑多种信号:

锚文本 (Anchor Text):超链接中的可点击文本为目标页面提供了一个简洁的描述。例如:

<a href="https://example.com/product">最佳咖啡豆</a>

这里的锚文本"最佳咖啡豆"清楚地指示目标页面的内容。搜索引擎可以: - 使用锚文本作为目标页面内容的指示 - 将锚文本的相关性与链接的PageRank权重相结合 - 给予来自相关锚文本的链接更高的权重

用户点击行为 (User Click Behavior):搜索引擎记录用户在搜索结果页面上的交互: - 用户点击哪个结果 - 用户停留多长时间 - 用户是否返回搜索结果重新搜索 - 用户是否继续点击其他结果

如果用户在搜索查询后: 1. 跳过第一个结果 2. 点击第二个结果 3. 在该页面上停留较长时间 4. 不返回搜索结果

这表明第二个结果可能比第一个更相关或更有用,搜索引擎可以据此调整排名。

4.4 搜索引擎优化和军备竞赛

搜索引擎优化 (SEO, Search Engine Optimization)已经成为一个完整的产业,专门致力于改进网站在搜索结果中的排名。SEO从业者研究搜索引擎的算法,并采用各种技术来提高他们网站的排名:

  • 内容优化:在页面中战略性地放置关键词
  • 链接建设:建立指向自己网站的链接网络
  • 技术优化:改进网站的加载速度、移动适配性等
  • 用户体验改进:增加页面上的停留时间和点击率

排名函数必须不断演变的原因:搜索引擎和SEO从业者之间存在一个不断升级的"军备竞赛"(arms race)。网站作者会适应已知或推测的排名算法,搜索引擎必须持续改进其算法以保持结果质量。

商业模式的转变:由于排名很容易被操纵,搜索引擎行业逐渐转向基于广告的商业模式。谷歌、必应(Bing)等搜索引擎现在提供"付费搜索"或"赞助链接",允许广告商为特定关键词的顶部位置付费。这些付费结果与有机搜索结果(organic results)分离显示,帮助用户区分。

算法保密:搜索引擎保持其排名算法的机密,部分原因是防止被游戏操纵,部分原因是竞争保密。这创造了一个环境,其中SEO专业人士必须通过反向工程、A/B测试和实验来推断算法的工作原理。


五、网络外的链接分析应用 (Section 14.5: Applications beyond the Web)

5.1 引文分析和期刊影响因子

链接分析的原理并不局限于万维网,可以应用于任何具有网络结构的领域。引文网络(Citation Networks)是最明显的例子。

Garfield的影响因子 (Impact Factor):在期刊评估领域,Eugene Garfield在1970年代引入了影响因子的概念,定义为:

\[\text{IF} = \frac{\text{某期刊在过去2年的论文被引用总次数}}{\text{该期刊过去2年发表的论文数}}\]

影响因子是评估期刊重要性的一个广泛使用的指标。高影响因子的期刊被认为出版了有重要影响的研究。

Pinski和Narin的改进方法:Pinski和Narin在1970年代指出,简单的引用计数方法存在一个缺陷:并非所有引用都相等。被高影响因子期刊引用的论文应该被视为比被低影响因子期刊引用的论文更有影响。

这个洞察直接对应于链接分析中的"重复改进"原理:

\[\text{期刊影响权重} = \sum_{\text{引用该期刊的期刊}} \frac{\text{引用期刊的影响权重}}{\text{引用期刊的出链数}}\]

这形成了一个递归定义,与PageRank的原理非常相似。通过迭代计算,可以得到一个"影响权重"序列,该序列收敛到一个反映期刊在学术网络中实际影响的值。

5.2 美国最高法院判决的链接分析

一个有趣的应用是Fowler和Jeon对美国最高法院判决的分析。他们将枢纽和权威的概念应用于200多年的美国最高法院判决记录。

数据:超过70,000份最高法院判决,其中包含它们之间的引用关系(一份判决引用另一份判决作为先例)。

方法:对这个判决的引用网络应用枢纽和权威分析。 - 权威:经常被其他判决引用的判决(这些判决树立了重要先例) - 枢纽:引用许多其他重要判决的判决(这些判决进行了深入的法律分析)

验证和结果:计算得出的高权威分数的判决与法律学者的定性评估高度一致。一些在数值上快速获得权威的判决甚至在被法律学术界广泛认可之前就被识别出来。

具体案例 - 第五修正案相关判决(Figure 14.9): - Brown v. Mississippi (1936):最初是关于第五修正案的权威判决,在链接网络中获得了很高的权威分数 - Miranda v. Arizona (1966):在1960年代后期逐渐获得更高的权威分数,最终超越了Brown v. Mississippi,因为随后的判决越来越多地引用Miranda权利 - Roe v. Wade (1973):关于妇女生育权的开创性判决,在发布后迅速积累了权威分数 - Brown v. Board of Education (1954):关于学校种族隔离的判决,虽然现在被认为是历史上最重要的判决之一,但其权威分数的增长相对缓慢,花了大约十年才获得最高排名

这个例子说明了链接分析的一般性:只要存在显示相关性或认可的网络结构,链接分析就可以用来识别网络中的关键节点和权威

5.3 链接分析的通用应用原理

链接分析的成功在多个领域的应用表明,一个通用的原理可以应用于任何具有以下特征的系统:

  1. 网络结构:节点之间存在有向连接(如链接、引用、推荐)
  2. 相关性指示:连接代表一种形式的"推荐"或"认可"
  3. 传递性:如果A推荐B,B推荐C,这暗示C有一定的可信度
  4. 可扩展性:网络足够大,使得自动分析比手工评估更可行

在这些条件下,迭代的链接分析算法(如枢纽和权威、PageRank的变体)可以有效地识别网络中的权威和关键节点,而无需人工干预。


术语表 (Terminology)

中文术语 English Term 简要说明
信息检索 Information Retrieval 从大量信息中查找相关内容的学科和方法
同义词问题 Synonymy 同一概念用不同词汇表达的问题(如"葱"vs"香葱")
多义词问题 Polysemy 同一词汇有多个含义的问题(如"Jaguar")
受控词汇 Controlled Vocabulary 在传统信息检索中使用的标准化术语集合
排名 Ranking 根据相关性或重要性对搜索结果进行排序
链接结构 Link Structure 网页之间的超链接连接关系
入链 In-link/Backlink 指向某个页面的链接
出链 Out-link 从某个页面指向其他页面的链接
投票/背书 Endorsement 一个页面链接到另一个页面表示的推荐
枢纽和权威 Hubs and Authorities 基于链接分析的排名算法,区分枢纽页面和权威页面
权威页面 Authority 在某一主题上被广泛认可的高质量页面
枢纽页面 Hub 链接到多个权威页面的列表或目录页面
重复改进 Repeated Improvement 在链接分析中通过迭代改进权威和枢纽分数的过程
HITS算法 HITS Algorithm Hyperlink Induced Topic Search算法,实现枢纽和权威
权威分数 Authority Score 衡量页面作为权威的程度的数值
枢纽分数 Hub Score 衡量页面作为枢纽的程度的数值
收敛 Convergence 迭代算法的结果趋向于稳定值的过程
平衡状态 Equilibrium 进一步迭代不再改变分数的稳定状态
PageRank PageRank Google创始人提出的基于链接的页面排名算法
流体隐喻 Fluid Metaphor 用流体流动比喻PageRank值在网络中的传递
出度 Out-degree 一个页面的出链数量
页面等级 Page Rank 一个页面基于指向它的页面重要性计算的排名分数
平稳分布 Stationary Distribution 随机过程在长期后的概率分布
强连通 Strongly Connected 网络中任意两个节点间都存在有向路径
陷阱 Rank Sink 只有入链没有出链的节点,导致PageRank泄漏
泄漏现象 Rank Leak PageRank不均匀分布,集中在某些节点的现象
缩放PageRank Scaled PageRank 使用缩放因子解决泄漏问题的改进版PageRank
缩放因子 Scaling Factor 控制随机跳转概率的参数,通常为0.85
水循环隐喻 Water Cycle Metaphor 用水的蒸发和降雨比喻PageRank的传递
随机冲浪者 Random Surfer 随机游走网络的虚拟用户,用于解释PageRank
随机游走 Random Walk 在网络上随机选择出链进行移动的过程
锚文本 Anchor Text 超链接中的可点击文本
搜索引擎优化 Search Engine Optimization (SEO) 优化网站以在搜索结果中获得更高排名的实践
垃圾邮件 Spam 旨在欺骗搜索引擎的低质量或欺骗性内容
关键词填充 Keyword Stuffing 不自然地重复放置关键词以提高排名的技术
军备竞赛 Arms Race 搜索引擎和SEO之间持续升级的竞争
有机结果 Organic Results 基于相关性算法而非付费的自然搜索结果
赞助链接 Sponsored Links 广告商为特定关键词的排名位置付费的链接
引文网络 Citation Network 论文或期刊之间的引用关系网络
影响因子 Impact Factor 期刊在过去两年的平均被引频次
权威权重 Authority Weight 基于引用关系计算的期刊影响程度的数值
先例 Precedent 法律中被后来判决所遵循的早期判决
网络拓扑 Network Topology 网络的结构和连接方式
递归定义 Recursive Definition 通过自身的定义来定义某个量的方法
迭代算法 Iterative Algorithm 通过重复应用规则来逼近结果的算法
相关性 Relevance 搜索结果与用户查询的匹配程度
权威性 Authority 页面内容的可信度和重要程度
用户点击行为 User Click Behavior 用户在搜索结果中的点击和交互模式

总结

第14章"链接分析与网络搜索"介绍了现代网络搜索排名的理论基础。从信息检索的历史问题出发,该章详细讲解了两个主要的链接分析方法:

  1. 枢纽和权威 (HITS):基于"良好的权威被好的枢纽链接,好的枢纽链接到良好的权威"的相互强化原理,通过迭代改进来识别网络中的关键节点。

  2. PageRank:使用流体流动和随机冲浪者的隐喻,将链接权重在网络中传递,最终达到反映页面相对重要性的平衡分布。

这两种方法都不仅是理论上的创新,而且在实践中产生了巨大的影响。PageRank构成了Google搜索引擎的基础,而枢纽和权威原理被许多其他搜索引擎采用。

本章还讨论了链接分析超越网络的应用,展示了这些方法在引文分析、法律判决评估等领域的适用性,说明了这些算法的通用价值。

关键洞察:在任何具有网络结构的系统中,链接关系可以作为节点相对重要性的指标。通过适当的数学框架和迭代算法,可以自动识别权威、关键节点和隐藏的网络结构,这是人工手工评估无法高效完成的任务。