COMP5313 考试 Cheatsheet(六大模块速查)
COMP5313 考试 Cheatsheet — 六大模块速查
覆盖 Week 1-6,按六大知识模块组织,供考场快速回顾。 教材:Networks, Crowds, and Markets (Easley & Kleinberg) + Mining of Massive Datasets Ch5 + Barabási Network Science
一、图与网络基础(Graph Basics)
1.1 基础定义
- 图(Graph):\(G = (V, E)\),节点集 \(V\)、边集 \(E\)
- 邻居(Neighbors):若 \((u,v) \in E\),则 \(u, v\) 互为邻居
- 度(Degree):节点连接的边数;有向图分出度 \(d^{out}\)、入度 \(d^{in}\)
- 无向图:边对称;有向图:边有方向(Web、Twitter 关注)
- 应用:社交(Facebook)、通信(Arpanet)、信息(Web)、生物(PPI)
1.2 路径与环
- 路径(Path):节点序列,相邻节点间有边
- 简单路径(Simple Path):不重复节点
- 环(Cycle):首尾相同的路径,长度 ≥ 3
- 路径长度:边数
- 距离 \(d(u,v)\):最短路径长度
- 直径(Diameter):\(\max_{u,v} d(u,v)\)
1.3 连通性
- 连通(Connected):无向图中任意两节点有路径
- 连通分量(Connected Component, CC):极大连通子图
- 巨分量(Giant Component):占节点相当比例的大分量;通常只有一个——两个巨分量只需 1 条边即合并
- 有向图:
- 强连通(Strongly Connected):任意两点互有有向路径
- 强连通分量(SCC):极大强连通子图
1.4 图搜索
- BFS(广度优先搜索):从起点逐层展开;自然产生 BFS 层次结构
- BFS 层次:层 \(d\) 的所有节点到起点距离为 \(d\)
- 边只连接同层或相邻层节点(无向图中)
- 可在 \(O(|V|+|E|)\) 时间内求单源最短路径
1.5 网络现象
- 小世界现象(Small World):大规模网络中任意两点平均距离很短(log 级别)
二、社交网络局部结构(Local Structure)
2.1 三元闭包(Triadic Closure)
- 定义:若 \(A\)-\(B\) 和 \(A\)-\(C\) 是朋友 → \(B\)-\(C\) 成为朋友的概率高
- 驱动:机会、信任、激励
- 聚类系数(Clustering Coefficient): \[C(v) = \frac{\text{v 的朋友间实际边数}}{\binom{d_v}{2}}\]
- 取值 \([0,1]\);全网平均 = Average Clustering Coefficient
2.2 强联系 vs 弱联系
- 强联系(Strong Tie):频繁互动、情感投入高(亲友)
- 弱联系(Weak Tie):偶然接触(熟人)
2.3 桥与跨度
- 桥(Bridge):删除后端点不连通的边(现实网络中极少)
- 局部桥(Local Bridge):两端点无共同邻居 的边,等价:删除后两端距离 > 2
- 跨度(Span):删除 local bridge 后两端点的距离
2.4 强三元闭包性质(Strong Triadic Closure, STC)
- 定义:节点 \(A\) 若有 ≥ 2 个强联系 \(B, C\),则 \(B\)-\(C\) 必须有边(强或弱)
- 关键定理:若 \(A\) 满足 STC 且至少有 2 个强联系,则 \(A\) 的所有局部桥必为弱联系
- 反证法证明:假设 \(A\)-\(B\) 是强的局部桥,\(A\)-\(C\) 也为强 → 由 STC 必有 \(B\)-\(C\) → 违反局部桥定义(公共邻居 \(A\))
2.5 邻域结构
- 邻域重叠(Neighborhood Overlap): \[O(A,B) = \frac{|N(A) \cap N(B)|}{|N(A) \cup N(B) \setminus \{A,B\}|}\]
- 局部桥的 overlap = 0
- 嵌入度(Embeddedness):一条边两端点的公共邻居数
- 结构洞(Structural Hole):节点位于多个不互动群体的交界 → 控制信息流(Burt)
三、社区发现与图划分(Community Detection)
3.1 图划分基础
- 目标:将网络分为紧密区域,区域间连接稀疏
- 分裂式(Divisive):移除"跨区"边;自顶向下
- 聚合式(Agglomerative):合并相似节点;自底向上
- 树状图(Dendrogram):合并/分裂过程;水平切割得分区
3.2 社区定义
- 直觉:内密集、外稀疏的节点集
- 团(Clique):完全子图(过严格)
- 强社群:每个节点 \(k_i^{int} > k_i^{ext}\)
- 弱社群:\(\sum k_i^{int} > \sum k_i^{ext}\)
3.3 中介性(Betweenness)
- 边中介性: \[b(e) = \sum_{s \neq t} \frac{\sigma_{st}(e)}{\sigma_{st}}\] 其中 \(\sigma_{st}\) 为 \(s\)-\(t\) 最短路径数,\(\sigma_{st}(e)\) 为经过 \(e\) 的
- 节点中介性:类似定义
- 流量直觉:每对节点 1 单位流量平分给所有最短路径
3.4 Girvan-Newman 算法
- 计算所有边的 betweenness
- 移除最高 betweenness 的边
- 重新计算(重要!)所有 betweenness
- 若产生新分量 → 记录;继续直至所有边移除
- 时间复杂度:\(O(nm)\) 算一次 betweenness;完整 \(O(nm^2)\),稀疏图 \(O(n^3)\)
3.5 Betweenness 的 BFS 计算(3 步)
步骤 1:BFS 分层(从起点 \(A\))
步骤 2:最短路径数自顶向下 - 第 1 层节点:\(\sigma_A(X) = 1\) - 第 \(d\) 层节点 \(X\):\(\sigma_A(X) = \sum_{Y \in \text{上方邻居}} \sigma_A(Y)\)
步骤 3:流量自底向上 - 叶节点:1 单位流量(自身) - 中间节点 \(X\):流量 = \(1 + \sum_{\text{下方流入}}\) - 按 \(\sigma_A(Y) / \sigma_A(X)\) 比例分配给上方邻居 \(Y\)
对每个起点重复,流量求和,最后除以 2(每对被计算两次)
3.6 Modularity(模块度)
\[Q = \sum_{s \in S} \left[\frac{m_s}{m} - \left(\frac{D_s}{2m}\right)^2\right]\] - \(m_s\):社区 \(s\) 内部边数;\(D_s\):社区内度数总和;\(m\):总边数 - 取值 \([-1, 1]\);\(Q > 0\) 意味有社区结构 - 假设 H3:随机网络无社群结构 - 假设 H4:最大 \(Q\) 对应最优分区 - Louvain:贪心最大化 \(Q\),\(O(N \log^2 N)\) - 局限: - 分辨率极限:无法识别 \(< \sqrt{2L}\) 的小社群 - 模块度高原:最大值不唯一
四、网络形成与同质性(Homophily & Formation)
4.1 同质性(Homophily)
- 定义:人们倾向与相似的人建立关系
- 检测(2pq 测试):在二分类(比例 \(p\) 男、\(q\) 女)网络中,随机图中跨组边比例期望为
\(2pq\)
- 实际 < \(2pq\) → 存在 homophily
- 两大驱动:
- 选择(Selection):相似 → 变朋友
- 社会影响(Social Influence):朋友 → 变相似
4.2 从属网络(Affiliation Network)
- 二部图(Bipartite Graph):两类节点(人 ↔︎ 活动),边跨类
- 融合网络:社交网络 + 二部图
- Focal Point:共同活动/焦点
4.3 三种闭包机制
| 机制 | 描述 | 类型 |
|---|---|---|
| 三元闭包(Triadic Closure) | 共同朋友 → 成为朋友 | 选择 |
| 焦点闭包(Focal Closure) | 共同活动 → 成为朋友 | 选择 |
| 成员闭包(Membership Closure) | 朋友参加的活动 → 自己加入 | 社会影响 |
实证(email 数据):共同朋友数 ↑ → 未来成为朋友的概率近线性上升
4.4 Schelling 隔离模型
- 网格上两类 agent(如红/蓝)
- 阈值 \(T\):同类邻居 ≥ \(T\) 才满意
- 不满意 → 迁移到随机空位
- 惊人发现:即使 \(T=3\)(邻居中 3/8 同类即满意),也会产生大片同质区
- 结论:微弱偏好 → 宏观隔离
五、正负关系与结构平衡(Signed Networks)
5.1 正负边模型
- 符号图(Signed Graph):每条边标 \(+\)(朋友/信任/同盟)或 \(-\)(敌人/不信任/对立)— 捕捉人际/政治关系的两极性
- 应用:国际关系(冷战两阵营)、信任网络(Epinions、Slashdot)、社交对立(Wikipedia 编辑纠纷)
5.2 三角形四种配置(完全图)
| 配置 | 符号 | 平衡? | 社会解释 | 心理稳定性 |
|---|---|---|---|---|
| \(+++\) | 3 正 | ✓ | "朋友的朋友是朋友"(\(A,B,C\) 三人互为朋友) | 稳定 |
| \(++-\) | 2 正 1 负 | ✗ | \(A\) 同时是 \(B\) 和 \(C\) 的朋友,但 \(B\)-\(C\) 敌对 → \(A\) 压力大 | 不稳定 |
| \(+--\) | 1 正 2 负 | ✓ | "敌人的敌人是朋友"(\(A\)-\(B\) 友,共同敌对 \(C\)) | 稳定 |
| \(---\) | 3 负 | ✗ | "全员敌对" → 任两者有联合对抗第三者的动机 | 不稳定 |
平衡规则(形式化):三角形 \((A,B,C)\) 平衡 \(\Leftrightarrow\) 三边符号乘积 \(= +\) \(\Leftrightarrow\) 含奇数条正边(即 1 或 3 条);也可记为"负边数为偶数(0 或 2)"
5.3 结构平衡(Structural Balance)
- 局部定义:完全符号图是结构平衡的(structurally balanced),若每一个三角形都是平衡的——即整图不包含任何 \(++-\) 或 \(---\) 三角形
- 平衡压力:不平衡的三角形(\(++-\)、\(---\))产生社会心理张力,驱动关系重新配置(如 \(B\)-\(C\) 从敌变友将 \(++-\) 转为 \(+++\))
- 动态视角:在演化中,网络倾向于移除不平衡三角形 → 走向结构平衡状态(虽然现实网络未必完全到达)
5.4 Harary 平衡定理(完全图)【必背】
定理(Cartwright-Harary 1956):完全有标签图 \(G\) 是结构平衡的 \(\Leftrightarrow\) 节点可以划分为两个集合 \(X, Y\)(其中一个可为空),使得 - 组内(\(X\) 内部 或 \(Y\) 内部)所有边为正 - 组间(\(X\) 与 \(Y\) 之间)所有边为负
等价表述:整图由两个"派系"组成,派系内友好、派系间敌对;允许 \(Y = \emptyset\)(此时所有边为正)。
证明(\(\Leftarrow\) 方向,简单):任取三角形 \((A,B,C)\)。三节点分到 \(X,Y\) 两组必然出现"全同组(3 正边)"或"2 同 1 异(1 正 2 负)"——两种情形都是奇数正边 → 平衡。
证明(\(\Rightarrow\) 方向,构造性 BFS 法): 1. 选起点:任取节点 \(A\),定义 \(X = \{A\} \cup \{B : A\text{-}B \text{ 为正}\}\)(\(A\) 和 \(A\) 的所有朋友),\(Y = \{C : A\text{-}C \text{ 为负}\}\)(\(A\) 的所有敌人) 2. 证 \(X\) 内全正:取 \(B_1, B_2 \in X \setminus \{A\}\)。三角形 \((A, B_1, B_2)\) 中 \(A\text{-}B_1 = +\)、\(A\text{-}B_2 = +\)(由 \(X\) 定义)。由平衡需奇数正边 → \(B_1\text{-}B_2 = +\) ✓ 3. 证 \(Y\) 内全正:取 \(C_1, C_2 \in Y\)。三角形 \((A, C_1, C_2)\) 中 \(A\text{-}C_1 = -\)、\(A\text{-}C_2 = -\)(两条负边)。奇数正边 → \(C_1\text{-}C_2 = +\) ✓(敌人的敌人是朋友) 4. 证 \(X\)-\(Y\) 间全负:取 \(B \in X\)、\(C \in Y\)。若 \(B = A\),则由 \(Y\) 定义 \(A\text{-}C = -\);若 \(B \neq A\),三角形 \((A, B, C)\) 中 \(A\text{-}B = +\)、\(A\text{-}C = -\)(一正一负)。奇数正边 → \(B\text{-}C = -\) ✓ 5. 归纳:对所有节点对成立 → 划分有效 ∎
直观推论: - 完全平衡图的结构极为受限——从 \(A\) 的朋友/敌人二分即完全决定其余所有关系 - 若图中任何一对敌人间关系混合(有正有负) → 必不平衡 - 现实中的近似平衡(approximate balance):真实大型完全符号图中多数三角形平衡即可
5.5 一般图(非完全)的结构平衡
定义难点:一般图中可能有些节点对无边,不能直接套用"每个三角形平衡"。
两个等价定义: 1. 补边定义:能否为缺失的边赋予 \(+/-\) 标签,使补全后的完全图结构平衡 → 若能则原图平衡 2. 二分定义:节点能否划分为 \(X, Y\),使组内现有边全为正、组间现有边全为负(缺失边不作要求)
关键定理(环的奇偶性刻画):一般符号图是结构平衡的 \(\Leftrightarrow\) 图中不存在含奇数条负边的环(即所有环的负边数为偶数)
证明思路: - \(\Rightarrow\):若分成 \(X,Y\) 两组,任一环从某节点出发回到自身 → 跨组跳转偶数次 → 负边数必为偶数 - \(\Leftarrow\):所有环负边数为偶数时,可从任一节点 BFS,按路径上负边奇偶性二分节点,保证无冲突
5.6 BFS 检验平衡性(两步算法)【必会】
Step 1(正边分量):忽略负边,在正边子图上找连通分量(称为 supernodes) - 在每个 supernode 内,任意两节点间存在全正路径 → 它们必须同组 - 若某 supernode 内部含任何一条负边 → 立即判定不平衡(因为这条负边构成含 1 条负边的奇环)
Step 2(缩点+二部图检测):将每个 supernode 缩为单个超级节点,原始负边成为超图上的边 → 构造"缩点图",该图只含"负边" - 对缩点图做 BFS:起点标组 0,邻居标组 1,交替分层 - 若某负边两端标到同一组 → 存在奇数环 → 不平衡 - 若无冲突 → 平衡,BFS 二分即为 \(X, Y\)
替代(一步 BFS/DFS):直接在原图 BFS,维护每个节点的组标签 - 遇 \(+\) 边:两端同组 - 遇 \(-\) 边:两端异组 - 若产生矛盾 → 不平衡;否则平衡
复杂度:\(O(|V| + |E|)\),与一般 BFS 同阶
六、链接分析与搜索(Link Analysis)
6.1 搜索排序问题
- 信息检索问题:同义(synonymy)、多义(polysemy)
- Web 规模 → 从 scarcity 到 abundance
- 需要从大量相关文档中筛选"最重要"的
6.2 HITS(Hubs and Authorities)
- Authority:高质量内容页
- Hub:指向多个好 authority 的列表页
- 相互递归:好 hub 指好 authority;好 authority 被好 hub 指
- 初始:所有分数 = 1
- Authority Update:\(\text{auth}(p) = \sum_{q \to p} \text{hub}(q)\)
- Hub Update:\(\text{hub}(p) = \sum_{p \to q} \text{auth}(q)\)
- 归一化:除以总和(或最大值)
- 矩阵形式:
- \(\mathbf{a} = L^T \mathbf{h}\);\(\mathbf{h} = L\mathbf{a}\)
- \(\mathbf{h}^{(K)} \propto (LL^T)^K \mathbf{h}^{(0)}\)
- 收敛到 \(LL^T\) 最大特征值对应的特征向量
- 优点:无 dead end/spider trap 问题;查询相关
6.3 PageRank 基础
- 核心:一个分数;页面均分 PR 给所有出链
- Basic Update: \[v'_i = \sum_{j \to i} \frac{v_j}{d_j^{out}}\]
- 死端:将 PR 传给自己(Easley-Kleinberg 约定)
- 矩阵形式:\(\mathbf{v}' = M \mathbf{v}\),\(M\) 是列随机矩阵
- 均衡:\(\mathbf{v} = M\mathbf{v}\) 且 \(\sum v_i = 1\)
- 主特征向量:\(M\) 的 \(\lambda = 1\) 特征向量
6.4 PageRank 问题
| 问题 | 描述 | 后果 |
|---|---|---|
| 死端(Dead End) | 无出链的节点 | PR 逐渐泄漏到死端 → 其他节点归零 |
| 蜘蛛陷阱(Spider Trap) | 有出链但形成封闭子图 | PR 全部聚集在陷阱内 |
| 不收敛 | 如 4 节点循环 | PR 永远震荡 |
收敛条件:强连通 + 非周期
6.5 Scaled PageRank(实际使用)
\[v'_i = \alpha \cdot (Mv)_i + \frac{1-\alpha}{n}\] - \(\alpha\)(或 \(\beta\)):阻尼因子,常用 \(0.8 \sim 0.9\)(Google:0.85) - 直觉:随机冲浪者以 \(\alpha\) 跟随链接,以 \(1-\alpha\) 跳转到随机页面(传送/Teleportation) - 水循环类比:蒸发 \(1-\alpha\) 单位再均匀降雨 - 等价随机游走:稳态分布 = PR 极限值 - 性质: - 消除死端/陷阱问题 - 误差按 \(\alpha^K\) 指数衰减 - 均衡:\(\mathbf{v} = \frac{1-\alpha}{n}(I - \alpha M)^{-1}\mathbf{e}\) - \((I - \alpha M)\) 可逆(严格对角占优)
6.6 Personalized PageRank (PPR) & Topic-Sensitive
\[v' = \alpha M v + (1-\alpha) \frac{\mathbf{e}_S}{|S|}\] - 随机跳转仅跳到 \(S\)(teleport set) - Topic-sensitive:\(S\) = 该主题的网页集(如 DMOZ 16 大类) - TrustRank:\(S\) = 可信页面(.edu/.gov),用于反垃圾 - Spam Mass:\(\frac{r - t}{r}\),\(r\) = PR,\(t\) = TrustRank;接近 1 → 疑似垃圾
6.7 链接垃圾与 Spam Farm
- Spam Farm 结构:目标页 \(t\)、\(m\) 支持页;\(t\)↔︎支持页互链
- 放大效应(\(\beta=0.85\)):外部 PR 贡献放大 \(\frac{1}{1-\beta^2} \approx 3.6\)
- 支持页还能占 \(\frac{\beta}{1+\beta} \cdot \frac{m}{n} \approx 0.46 \frac{m}{n}\)
6.8 Web 图蝴蝶结结构(Bow-Tie)
Broder et al. 1999(AltaVista 数据): | 部分 | 规模 | 描述 | |------|------|------| | SCC | 56M | 巨强连通分量;核心 | | IN | 44M | 可达 SCC,不可被 SCC 达 | | OUT | 44M | 被 SCC 达,不可达 SCC | | Tendrils | 44M | 从 IN 可达但不到 SCC;或能到 OUT 但不从 SCC 达 | | Tubes | 小 | 从 IN 直通 OUT 绕过 SCC | | Disconnected | 小 | 完全孤立 |
6.9 工程优化
- 稀疏矩阵存储:列式 (source, degree, destinations);每非零 ~4 字节
- MapReduce PR:M 按条纹(stripe)或方块(\(k^2\) blocks)分区;v 条纹配合
- 大规模 PR:50-75 次迭代足够
七、证明题重点
7.1 STC → 局部桥为弱联系(反证法)
设 \(A\) 满足 STC,\(A\)-\(B\) 为强的局部桥: - 由 STC,\(A\) 若有另一强联系 \(A\)-\(C\),则 \(B\)-\(C\) 必有边 - 但局部桥要求 \(B, C\) 无共同邻居以外的连接 ⇒ 矛盾
7.2 Harary 平衡定理(完全图)
- \(\Rightarrow\):若分成 \(X, Y\),任何三角形至少两顶点同组 → 内正外负推出奇数正边
- \(\Leftarrow\):选一负边节点 \(A\),用 BFS 按"朋友/敌人"划分组别,利用平衡条件推出组内全正、组间全负
7.3 不平衡 \(\Leftrightarrow\) 奇数负边环
- \(\Rightarrow\):不平衡的完全图有不平衡三角形,即 1 条或 3 条负边(奇数)
- \(\Leftarrow\):若所有环负边数均为偶数,可用 BFS 按路径奇偶性二分节点
7.4 Scaled PR 矩阵可逆
- \((I - \alpha M)\) 严格对角占优:对角 \(= 1\),每行非对角和 \(\le \alpha < 1\)
- 对角占优矩阵可逆(Gershgorin)
八、核心计算技巧速查
8.1 PageRank 计算
基本 PR(3 节点例):列方程 \(v = Mv + \sum v_i = 1\),代入消元 Scaled PR(\(\alpha = 4/5\)):\(v'_i = \alpha (Mv)_i + \frac{1-\alpha}{n}\)
8.2 HITS 两步计算
- Round 1:auth = hub 之和;hub = auth 之和
- Round 2:同上
- 归一化:除以总和
8.3 Edge Betweenness 手算
- 对每节点 BFS
- 上传/下传数最短路径
- 流量按比例分配
- 求和除 2
8.4 Clustering Coefficient
\[C(v) = \frac{2 \cdot (\text{v 朋友间边数})}{d_v (d_v - 1)}\]
8.5 Modularity
对每社区:\(\frac{m_s}{m} - \left(\frac{D_s}{2m}\right)^2\),求和
8.6 Neighborhood Overlap
\[O(A,B) = \frac{|N(A) \cap N(B)|}{|N(A) \cup N(B) \setminus \{A,B\}|}\]
九、概念辨析
| 对比 | A | B |
|---|---|---|
| Bridge vs Local Bridge | 删除后端点不连通 | 删除后端点距离 > 2 |
| 强联系 vs 弱联系 | 亲密、投入高 | 熟人、频次低 |
| 有向图连通 vs 强连通 | 忽略方向连通 | 沿方向互达 |
| Hub vs Authority | 指向者 | 被指向者 |
| Basic vs Scaled PR | 有陷阱/死端问题 | 有 teleport 修正 |
| Selection vs Social Influence | 先相似后结识 | 结识后趋于相似 |
| 强社群 vs 弱社群 | 每节点内度 > 外度 | 社群总内度 > 总外度 |
| Focal vs Membership Closure | 共同活动 → 朋友 | 朋友 → 共同活动 |
十、考试 Tips
- 证明题:STC / Balance Theorem / 奇数负边环 / Scaled PR 可逆
- 计算题:PageRank 均衡值、HITS 迭代、Edge Betweenness、Modularity
- 概念辨析:Bridge/Local Bridge、有向连通、HITS vs PageRank
- 算法理解:BFS、Girvan-Newman、HITS、Scaled PageRank
- 建图分析题:Spam Farm 放大、Bow-Tie 结构判定
- 矩阵表示:邻接、行/列随机、\(AA^T\) 特征向量
高频公式必背: - \(O(A,B) = |N(A) \cap N(B)| / |N(A) \cup N(B) \setminus \{A,B\}|\) - \(Q = \sum_s [m_s/m - (D_s/2m)^2]\) - \(v'_i = \alpha(Mv)_i + (1-\alpha)/n\) - auth/hub 更新规则 - 2pq 测试
速算技巧: - 无入链节点:basic PR = 0 - 无出链节点:basic PR 累积;scaled PR 仍被 teleport 修正 - 对称图:对称节点 PR 相等
文档版本:2026-04-16 祝考试顺利! ✨