COMP5313 Lecture 03b Summary - Networks in Their Surrounding Contexts

Lecture 03b — Networks in Their Surrounding Contexts

主题

这节研究网络不是孤立生成的,而是受到外部环境影响,重点讲: - homophily - link formation - spatial models

1. Homophily

homophily 指的是:

相似的人更容易连边。

相似性可以来自: - 年龄 - 性别 - ethnicity - 兴趣 - 职业 - 观点 - 所在地区

结果

网络会形成: - 同质群体内部稠密 - 群体之间较稀疏

2. 如何衡量 homophily

课程里用“跨类别边比例”与随机期望比较。

例如二分类场景,若: - 某类比例为 - 另一类比例为

那么随机情况下跨类边期望比例约为:

如果实际跨类边比例显著低于 ,就说明存在 homophily。

一条新边为什么会出现?

重要机制包括: - triadic closure - shared context - repeated interaction - geography / space

Triadic closure

如果两个点有共同朋友,他们更容易形成新边。

含义

共同邻居越多,新边越可能出现。

4. Spatial models

现实网络通常受空间限制。

直觉

  • 距离越近,建立关系成本越低
  • 距离越远,连边概率越低

所以很多网络不是只由图结构决定,还受物理位置、组织环境、生活轨迹影响。

5. 这节和前后内容的联系

  • 与 community detection:homophily 会导致社群形成
  • 与 weak ties:弱边常连接不同同质团体
  • 与 link prediction:共同邻居等指标可以预测将来新增边

takeaway

网络的结构不是凭空出现的,它常常是“相似性 + 共同邻居 + 空间约束”共同作用的结果。