COMP5313 Lecture 05 Summary - The Web, Hubs and Authorities
Lecture 05 — The Structure of the Web, Hubs and Authorities
主题
这节从 social network 转到 information network,重点讲: - Web graph - bow-tie structure - hubs and authorities (HITS)
1. Web 是什么图
Web 可以看成一个 directed graph: - 节点:网页 - 有向边:超链接
与社交网络不同,信息网络强调“引用/推荐/指向”的方向性。
2. Bow-tie structure of the Web
Web 宏观上常呈 bow-tie 结构,包括: - SCC(强连通核心) - IN - OUT - tendrils / tubes - disconnected parts
直觉
不是所有网页都互相可达,而是形成一个中心核心,外面还有只进不出、只出不进等区域。
3. Hubs and Authorities
HITS 的思想是把节点分成两种角色:
Authority
被很多高质量 hub 指向的页面。
Hub
指向很多高质量 authority 的页面。
4. 递归定义
- 一个好 hub 指向很多好 authority
- 一个好 authority 被很多好 hub 指向
所以 hub 和 authority 是互相强化的。
5. 矩阵视角
设邻接矩阵为
进一步可得: - authority 对应
6. 为什么 HITS 有意义
有些页面本身不是最终权威内容,但它们是优质导航页。
例如: - 课程资源导航页是 hub - 被它指向的官方内容页是 authority
7. 应用
不仅适用于 Web,也适用于: - citation network - recommendation / expert finding - knowledge network
takeaway
HITS 的核心不是“谁最重要”这一个分数,而是把重要性拆成两种角色:会指路的 hub,和值得被指向的 authority。