COMP5313 Week 05 Web 结构与 HITS 讲课总结

COMP5313 Week 05 讲课总结:Web Structure 与 HITS

1. 本讲主题

本讲进入信息网络和链接分析。老师主要讲:

  • Web graph 和 citation network。
  • 有向图中的路径与强连通分量。
  • Web 的 bow-tie structure。
  • HITS 算法的 hub-authority 思想。

谱分析相关推导属于 advanced / optional,不作为重点整理。

2. 信息网络

信息网络中,边通常表示“引用”“指向”或“推荐”。

两个典型例子:

  • Web graph:网页是节点,超链接是有向边。
  • Citation network:论文是节点,引用关系是有向边。

区别:

  • Web link 可以更新和修改。
  • Citation link 有时间方向,一篇论文通常只能引用过去的论文。

3. 有向图基础

有向图中路径必须沿边方向走。

Strongly Connected Component, SCC

  • 在一个 SCC 内,任意两个节点互相可达。
  • SCC 是 maximal 的。
  • 每个节点恰好属于一个 SCC。

SCC 是理解 Web bow-tie structure 和 PageRank trap 的基础。

4. Web 的 Bow-Tie Structure

老师讲了 Broder et al. 对 Web graph 的经典观察:

  • Giant SCC:核心区域,任意两点互达。
  • IN:可以到达 SCC,但 SCC 回不到它们。
  • OUT:SCC 可以到达,但它们回不到 SCC。
  • Tendrils / Tubes:从 IN 或 OUT 延伸出来,但不进入核心路径。
  • Disconnected:与核心结构无关的部分。

这个结构说明 Web 不是一个简单的强连通图,而是有明显方向性和层次结构。

5. HITS 的核心思想

HITS 把页面分成两种角色:

  • Authority:被很多好 hub 指向的页面。
  • Hub:指向很多好 authority 的页面。

递归定义:

  • 好 authority 被好 hub 指向。
  • 好 hub 指向好 authority。

它适合处理搜索结果中的 prominent pages,尤其是好的 authority 之间不直接互相链接时。

6. HITS 更新规则

Authority 更新:

[ (p)=_{qp}(q) ]

Hub 更新:

[ (p)=_{pq}(q) ]

算法流程:

  1. 初始化所有 hub 和 authority 分数为 1。
  2. 交替执行 authority update 和 hub update。
  3. 每轮后归一化,防止数值无限增大。
  4. 迭代若干轮后得到排名。

7. 矩阵形式

设邻接矩阵为 \(A\)

[ =A^T ]

[ =A ]

合并后:

[ ^{(k)}(AAT)k^{(0)} ]

Authority 类似对应 \(A^TA\)

考试通常更重视更新规则和手算,不需要深入谱分解证明。

8. HITS 与 PageRank 的区别

HITS:

  • 每个页面有两个分数:hub 和 authority。
  • 原始 HITS 是 query-dependent,针对查询结果子图运行。
  • 不需要 teleport。

PageRank:

  • 每个页面只有一个全局重要性分数。
  • 通过链接传递重要性。
  • 后面 scaled PageRank 用 teleport 解决 trap 和收敛问题。

9. 考点重点

  • 会解释 Web graph / citation network 的有向边含义。
  • 会定义 SCC,并知道有向图路径必须沿方向。
  • 会画出 Web bow-tie 的 SCC、IN、OUT、tendrils。
  • 会解释 hub 与 authority 的递归关系。
  • 必会 HITS 两条更新公式。
  • 会按轮手算 HITS,并做归一化。
  • 会区分 HITS 和 PageRank:两个分数 vs 一个分数,query-dependent vs global。