COMP5313 - Chapter 4 Networks in Their Surrounding Contexts 网络的外部环境

Chapter 4: Networks in Their Surrounding Contexts(网络的外部环境)

教材:Networks, Crowds, and Markets: Reasoning about a Highly Connected World 作者:David Easley & Jon Kleinberg, Cambridge University Press, 2010


一、同质性原理 (Homophily Principle)

基本概念

同质性(Homophily)是指个体倾向于与自己在各种特征上相似的人建立联系和友谊的现象。这一原理指出,在种族/民族、年龄、职业、财富、兴趣、信念和观点等多个维度上,我们倾向于与相似的人成为朋友。

古代哲学家已经观察到这一现象。柏拉图指出"相似产生友谊",亚里士多德也记录了类似观察。现代研究则由拉扎斯菲尔德(Lazarsfeld)和默顿(Merton)在20世纪50年代推动。他们的工作催化了关于同质性的现代研究浪潮。

同质性的定量测量

为了定量测量同质性,我们需要比较实际的异质边(Heterogeneous edges)数量与随机混合下的预期数量。

假设网络中有两种类型的节点: - 类型A的比例为 \(p\) - 类型B的比例为 \(q\) - \(p + q = 1\)

在完全随机混合的情况下,边连接两个不同类型节点的概率应该是 \(2pq\)。因此,在具有 \(m\) 条边的网络中,异质边(Cross-type edges)的期望数量为:

\[E[\text{异质边}] = 2pqm\]

我们可以将实际的异质边比例与 \(2pq\) 进行比较:

  • 如果 异质边比例 \(\approx 2pq\) → 随机混合,无同质性(No homophily)
  • 如果 异质边比例 \(\ll 2pq\) → 明显的同质性存在(Homophily present
  • 如果 异质边比例 \(\gg 2pq\) → 反向同质性或反同质性(Anti-homophily),节点倾向于与不同类型的节点连接

多值特征的同质性

同质性概念可以推广到具有多个值的特征。例如,在学校友谊网络中,学生可能按照种族、年级、兴趣等多个维度表现出同质性。研究表明,学生往往与同种族和同年级的同学有更多的友谊连接,这违反了随机混合模型的预期。


二、同质性的机制:选择与社会影响

选择效应 (Selection Effect)

选择(Selection)是指个体根据自身属性主动选择与相似的人建立联系。在这种机制中,个人属性决定连接(个人特征 → 网络连接)。

例如,在线下交友中,具有共同兴趣爱好、相似教育背景或职业的人更可能相互吸引而成为朋友。这种机制强调的是个体的主动选择。

社会影响效应 (Social Influence / Socialization)

社会影响或社会化(Social Influence / Socialization)是指个体与友人互动过程中改变自身行为和属性以与友人保持一致。在这种机制中,网络连接导致属性改变(网络连接 → 个人特征)。

例如,青少年往往会因为朋友的影响而改变吸烟或饮酒习惯;社交网络中的肥胖可能通过朋友之间的行为影响而传播。

分离两种机制

选择和社会影响往往同时作用,很难区分。纵向研究(Longitudinal studies)通过追踪个体特征和连接关系随时间的变化来分离这两种效应。

在纵向分析中,我们可以观察到: - 选择效应特征:在两个个体首次接触之前,相似性迅速增加 - 社会影响特征:在首次接触之后,相似性继续缓慢增加

实证案例

青少年药物使用研究:研究发现,青少年的药物使用倾向在成为朋友之前就存在相似性(选择),但在成为朋友之后,他们的行为会进一步趋同(社会影响)。

肥胖的社交传播:Christakis和Fowler的著名研究显示,社交网络中的肥胖存在相关性。但这种关联源于三个混淆因素: 1. 选择效应:相似体质的人倾向于成为朋友 2. 同质性在其他相关特征中:与肥胖相关的其他特征(如生活方式、经济地位)本身表现出同质性 3. 社会影响效应:朋友间的饮食和运动习惯相互影响


三、从属关系与社交网络 (Affiliation Networks)

从属网络概念

从属网络(Affiliation networks)表示个体参与哪些团体或活动的关系。这种网络的基本结构是二部图(Bipartite graph): - 一组节点代表个人(People) - 另一组节点代表焦点/团体(Foci/Groups) - 边仅在这两组之间存在;同组内部没有边

例如,企业董事会成员网络中: - 一组节点是董事(Directors) - 另一组节点是公司(Companies) - 边表示某董事是否担任某公司的董事

社交-从属融合网络

社交-从属融合网络(Social-Affiliation Network)结合了两种类型的边: 1. 社交边(Social edges):连接两个个人(代表友谊或联系) 2. 从属边(Affiliation edges):连接个人和焦点(代表参与关系)

这种融合网络捕捉了社交关系和群体参与的相互作用。

闭包的三种机制

在社交-从属融合网络中,有三种重要的闭包(Closure)机制,它们解释了新联系如何形成:

1. 三元闭包 (Triadic Closure)

三元闭包(Triadic closure)发生在:B和C都与A是朋友时,他们倾向于成为朋友。 - 机制:共享朋友 → 新的人际关系 - 路径:人-人-人(People-People-People) - 示例:两个大学室友通过另一个室友介绍而成为朋友

2. 焦点闭包 (Focal Closure)

焦点闭包(Focal closure)发生在:B和C都参与同一焦点(如同一俱乐部或课程)时,他们倾向于成为朋友。 - 机制:共享参与的活动/团体 → 新的人际关系 - 路径:人-焦点-人(People-Focus-People) - 类似机制:类似于选择,因为共同的环境使相似的人聚集 - 示例:同一门课程的学生更可能成为朋友;同一运动队的成员更可能建立友谊

3. 成员闭包 (Membership Closure)

成员闭包(Membership closure)发生在:个人B的朋友A已经参加焦点C时,B倾向于加入焦点C。 - 机制:朋友参与 → 个人参与新焦点 - 路径:焦点-人-人(Focus-People-People) - 类似机制:类似于社会影响,因为个体受朋友行为的影响 - 示例:一个人加入健身房,因为他的朋友已经是会员;学生选择课程,因为他的朋友也选了

共同进化 (Co-evolution)

社交网络和从属网络随时间共同进化。这意味着: - 社交边的形成可能导致新的从属关系 - 共享的从属关系可能导致新的社交边 - 这两个过程相互强化,形成复杂的动态系统


大规模数据集的优势与局限

大型在线数据集使研究者能够定量追踪链接形成过程,获得前所未有的规模和时间精度。然而,需要注意的是,很难从数字交互推断到非数字(面对面)交互的情况。

三元闭包的定量化

方法论

为了定量测量三元闭包,研究者通常: 1. 获取两个不同时间点的网络快照(Snapshots) 2. 在第一个快照中,找出所有有恰好k个共同朋友但未直接连接的节点对 3. 追踪这些对中有多少在第二个快照中形成了新边 4. 计算 \(T(k)\) = 形成新边的比例

基线模型

在零假设(独立随机混合)下,对于k个共同朋友的节点对,在给定时间内形成新边的概率遵循基线模型:

\[T_{\text{baseline}}(k) = 1 - (1-p)^k\]

其中: - \(p\) = 给定任意一个共同朋友导致链接形成的概率 - \((1-p)^k\) = 所有k个共同朋友都未导致链接的概率

实证发现:Kossinets & Watts研究

在对约22,000名学生的电子邮件数据集(追踪一年)的研究中: - 实际的 \(T(k)\) 曲线随k增加而增加(符合直觉) - 关键发现:曲线显示向上弯曲Upward bend),尤其是在0→2个朋友转换时 - 这种模式强于基线预测,表明: - 共同朋友的增加效应是超加性的(Superadditive) - 第一个共同朋友比第二个贡献更多(强度递减) - 多个共同朋友的组合效应大于独立概率的乘积

这表明三元闭包不是简单的独立过程,而是存在结构化的社交动力

焦点闭包的定量化

方法:课程时间表数据

使用学生课程时间表数据,研究者可以量化焦点闭包: - 焦点(Focus)= 课程(Class) - 如果两个学生选了同一门课,他们有一个共同焦点 - 追踪他们随后成为朋友的概率

关键发现

  • 绝对效应:单个共享焦点的影响大致相当于单个共享朋友的影响
  • 曲线形状:焦点闭包曲线向下弯曲(Diminishing returns),与三元闭包不同
    • 第一个共享焦点产生强效应
    • 后续的共享焦点产生较弱的增量效应
    • 这可能反映了通过焦点接近并不能保证成为朋友(需要额外的社交互动)

这种模式表明,虽然焦点创造了机会,但将共享环境转化为友谊需要额外的条件。

成员闭包的量化

LiveJournal数据

在LiveJournal社区(Communities)中: - 追踪个人加入社区的概率 - 与已经在该社区中的朋友数量相关 - 发现概率随朋友数量的增加而增加(成员闭包存在

Wikipedia编辑者数据

在Wikipedia中: - 追踪编辑者编辑特定文章的概率 - 与已经编辑该文章并与该编辑者有过交流的编辑者数量相关 - 显示编辑者倾向于跟随他们已认识的其他编辑者的兴趣

选择与社会影响的量化:Wikipedia案例

方法论

为了分离选择和社会影响,研究者追踪两个编辑者的编辑相似性

\[\text{相似性} = \frac{\text{两者都编辑的文章数}}{\text{至少一人编辑的文章数}}\]

相似性相对于首次通信时间进行分析。

关键时间点

  • 首次通信前:迅速增加的相似性 → 选择效应(相似的编辑者倾向于相互交互)
  • 首次通信后:继续缓慢增加的相似性 → 社会影响效应(交流导致编辑兴趣的收敛)

这种时间模式证实了两种机制都在运作,但操作的时间尺度不同。


五、隔离的空间模型:Schelling模型 (Spatial Model of Segregation)

Schelling模型简介

托马斯·谢林(Thomas Schelling)在1965-66年提出的空间模型解释了全局隔离如何从本地同质性偏好中自发产生。这一模型是理解社会隔离现象的经典框架。

模型设置

基本要素

模型设置如下: - 网格(Grid):一个二维网格(如150×150) - 代理(Agents):两种类型的代理,标记为X和O - 初始配置:均匀分布约10,000个X类代理和10,000个O类代理,加上2,500个空单元格

邻域与满足度

每个代理有8个邻居(包括对角线):

[邻] [邻] [邻]
[邻] [代理] [邻]
[邻] [邻] [邻]

定义阈值 \(t\): - 如果代理的邻居中至少有t个是同类型,则代理满意(Satisfied) - 否则代理不满意(Unsatisfied)并倾向于移动(Move)

例如,若 \(t=3\): - 代理在至少3个邻居是同类型时满意 - 代理愿意接受5个邻居是不同类型(8-3=5) - 这表示相对温和的同质性偏好

模型动力学

模型按轮次迭代: 1. 识别所有不满意的代理 2. 这些代理随机移动到满足他们偏好的空单元格 3. 重复直到所有代理满意或无法移动

阈值 \(t=3\) 的案例

初始条件与结果

在150×150网格上: - 初始配置:随机分布 - 运行大约50轮就能达到稳定状态 - 关键结果:产生了大型同质区域,尽管没有代理明确寻求全面隔离

虽然棋盘模式(黑白相间)可能满足所有代理的偏好,但从随机初始配置开始,系统无法到达这个状态。集中的大区域更容易从随机开始达到,因此往往是稳定的终态。

阈值 \(t=4\) 的情况

当阈值增加到 \(t=4\) 时(代理需要至少4个同类邻居): - 隔离程度更加极端 - 产生两个大型的单独区域,中间有明确的边界 - 说明随着对本地同质性要求的增加,全局隔离程度也随之加强

Schelling模型的关键洞见

隔离的自发产生

模型的最重要洞见是:隔离可以在没有人明确寻求隔离的情况下出现。 - 代理不要求与其他类型完全隔离 - 每个代理仅要求不成为极少数(本地水平) - 这种温和的局部偏好导致全局的极端隔离

倍增效应

隔离通过"逐步瓦解(Progressive unraveling)"机制自我强化: 1. 代理看到不满意的邻域环境并移动 2. 移动改变了其他代理的邻域构成 3. 这可能导致第二波和第三波代理移动 4. 结果:集中的同质区域扩大,不同类型的人越来越分离

意图与结果的脱节

本地偏好 → 全局模式的转变表明: - 个体决策的集合效应可能与个体意图大不相同 - 温和的个体偏好可以产生极端的全局结果 - 无意的隔离(Unintended segregation)是复杂系统的特征


六、总结与关键联系

四个主要机制在网络及其周围环境中相互作用:

  1. 同质性原则表明个体与相似的人建立关系
  2. 选择与社会影响是同质性产生的两种基本机制
  3. 从属网络中的三种闭包机制(三元、焦点、成员)解释了网络结构如何演化
  4. Schelling模型展示了局部偏好如何导致全局模式,包括社会隔离

这些概念共同提供了理解为什么社会网络具有其特定结构特征的框架。


术语表 (Terminology Table)

英文术语 中文术语 定义
Homophily 同质性 个体倾向于与相似的人建立联系的现象
Heterogeneous edges 异质边 连接不同类型节点的边
Cross-type edges 异质边/跨类型边 连接两个不同类型节点的边
Anti-homophily 反同质性 节点倾向于与不同类型的节点连接
Selection 选择 个体根据自身属性选择相似朋友的机制
Social Influence 社会影响 个体为符合朋友而改变自身属性的机制
Socialization 社会化 社会影响的同义词
Longitudinal studies 纵向研究 追踪同一主体随时间变化的研究方法
Affiliation networks 从属网络/附属网络 表示个体参与团体的网络
Bipartite graph 二部图 节点分为两个不相交集合,边仅在集合间的图
Focus/Foci 焦点 从属网络中的团体或活动
Social-Affiliation Network 社交-从属融合网络 结合社交边和从属边的网络
Closure 闭包 新关系形成的过程
Triadic closure 三元闭包 B和C因共享朋友A而成为朋友
Focal closure 焦点闭包 B和C因共享焦点而成为朋友
Membership closure 成员闭包 个人因朋友参与而加入焦点
Co-evolution 共同进化 社交网络和从属网络随时间相互影响的过程
Snapshots 快照 不同时间点的网络状态
Superadditive 超加性 多个因素的组合效应大于单独效应之和
Diminishing returns 递减收益 额外投入的边际效应逐渐减少
Schelling model Schelling模型 解释隔离如何从本地偏好产生的空间模型
Grid 网格 Schelling模型中的二维空间
Agents 代理 Schelling模型中的个体
Threshold 阈值 代理满意所需的同类邻居最少数量
Satisfied 满意 代理的邻域符合其偏好条件
Unsatisfied 不满意 代理的邻域不符合其偏好条件
Segregation 隔离/种族隔离 不同类型个体在空间上的分离
Progressive unraveling 逐步瓦解 隔离通过连锁移动自我强化的过程
Unintended segregation 无意的隔离 个体温和的偏好导致的全局隔离
Friendship network 友谊网络 代表人与人之间友谊关系的网络
School network 学校网络 在学校环境中形成的社交网络
Email network 电子邮件网络 基于电子邮件通信的网络
Community 社区/社群 共同兴趣或参与的团体
Director 董事 在公司担任董事职务的个人
Company 公司 企业或商业组织
Editor 编辑 Wikipedia或类似平台上的编辑者
Article 文章 需要编辑的内容单位
Similarity 相似性 两个个体在特征或行为上的相似程度
Drug use 药物使用 研究中的行为指标
Obesity 肥胖 社交传播研究中的健康指标
Interest 兴趣 个人的偏好和关注领域
Belief 信念 个人的观点和价值观
Opinion 观点 个人对事物的看法
Confounding factors 混淆因素 影响因果关系的其他因素

文档统计 - 总字数(中文):约12,000字 - 主要章节:5个 - 核心概念:15+ - 实证研究案例:8+ - 公式与模型:6+ - 术语表条目:50+

此文档为COMP5313课程Chapter 4的完整知识点总结,涵盖同质性、社交机制、从属网络、在线链接形成追踪和Schelling隔离模型的所有关键概念。