COMP5270 Week 12 总结:Learning from Experts(题解 + 知识点)
课程: COMP5270 - Randomness, Probability, and Algorithms
学期: S1 2026
来源: Week 12 - Learning from Experts, Week 12 - Tutorial 12 (Solutions)
Part 1: Tutorial 12 详细题解
Warm-up
Problem 1: 画
Theorem 61 / 62 中 的
bound
题目: 对不同
题解:
这题主要是数值探索,核心是理解两个 bound 如何依赖
Theorem 61 deterministic MWU:
其中对数底数不影响形状,只影响常数。
Theorem 62 randomized MWU:
观察:
- 当
,错误专家被惩罚很重,适合 或很小; - 当
,惩罚很轻,更稳健,适合 大的情况; - 但
时分母变小,会放大 项。
对
若
若
本题用到的知识点:
- MWU penalty parameter tradeoff。
小:快速淘汰,但不稳健。 大:稳健,但 additive 项变差。 - Deterministic 与 randomized MWU bound 形式不同。
Problem 2: 已知 和 时如何选 ?
题目: 假设预先知道
题解:
精确最优可以对 bound 关于
考试/推导中常用近似:平衡 numerator 中的两项。
Deterministic MWU numerator:
如果
一个合理选择是令:
即:
所以:
当
Randomised MWU 的分子同样是:
也可用同样的平衡思路。不过由于分母是
对应:
量级的 regret。
本题用到的知识点:
- MWU bound 中有
项和 项。 - 参数选择常通过 balance terms。
是分析小惩罚 regime 的常用代换。
Problem 3: 证明 deterministic experts factor 2 下界
题目: 证明 Fact 57.3:当
题解:
设两个专家:
- Expert 0:每轮预测 0;
- Expert 1:每轮预测 1。
任意 deterministic algorithm 在第
adversary 令真实值为相反:
这样算法每一轮都错,所以:
现在看两个专家。设真实序列中 0 的位置集合为
Expert 0 在真实值为 1 时犯错,错误数
best expert 错误数:
因此:
这说明 deterministic algorithm 无法保证比 factor 2 更好。
本题用到的知识点:
- Adversarial sequence 根据 deterministic prediction 反着设。
- Best expert in hindsight。
- Deterministic lower bound factor 2。
Problem Solving
Problem 4: 已知 时改进 MWU bound
题目: 若提前知道
题解:
使用 Theorem 61:
令:
其中
a) 若
直接取
而目标右边:
也至少是
b) 若
用近似:
以及:
更精细地,课程 solution 使用:
于是:
取:
得到:
即:
加上小
本题用到的知识点:
- MWU general
bound。 - 令
做 Taylor expansion。 - 平衡
与 。 - 小
单独处理。
Problem 5: 每个时间区间都和该区间 best expert 比较
题目: 修改 MWU,希望对任意 chunk
算法只在某个犯错专家当前权重至少为平均权重的
题解:
a) 算法
维护 weights
- 接收专家预测
; - 按 weighted majority 输出预测;
- 观察真值
; - 对每个犯错专家
: - 若:
则:
- 否则不再继续 penalise 它。
这里:
b-c) 一次 algorithm mistake 后总权重下降
固定一个 chunk 中某个算法犯错的时刻
令:
:犯错专家总权重; :没犯错专家总权重; :犯错但权重低于 、因此不被 penalise 的专家总权重。
因为算法按 weighted majority 预测且预测错了,说明犯错专家权重至少一半:
低权重犯错专家总权重最多:
更新后:
等价写作:
用:
得到:
d) chunk 开始时任意专家权重下界
设 chunk 从
原因:若它之前被 penalise,最后一次被 penalise 前权重至少为当时平均的
e) chunk 结束时总权重下界
设该 chunk 上 best expert 是
次。它在 chunk 内最多被乘
因此:
f) 结论
若算法在 chunk 中犯错
结合下界:
消去
其中
本题用到的知识点:
- MWU potential argument。
- Fixed-share / sleeping-style intuition:防止老专家权重过低。
- 对任意 interval 做 regret bound。
- 上下界夹住总权重。
Advanced
Problem 6: 第
个专家最多犯 次错时的 MWU bound
题目: 有
题解:
因为第
所有专家总权重下界:
a) Deterministic MWU
若算法共犯
所以:
结合上下界:
取 log 并整理:
这比只看 best expert 的 bound 更利用了“所有专家都有不同程度好坏”的结构。
b) Randomised MWU
令
每轮权重变化:
因此:
取 log,用
又有:
所以:
本题用到的知识点:
- MWU potential: total weight。
- 不只用 best expert,而是把所有专家最终权重下界相加。
- Deterministic MWU 每次 mistake 权重乘
。 - Randomised MWU 用
和期望线性性。
Part 2: Week 12 讲义知识点
0. 基础版导读:Learning from Experts 在学什么?
Week 12 的主题是 Learning from Experts。这是 online learning 的一个基本模型:
有很多 experts 每轮给建议,算法不知道哪个 expert 可靠,要一边做决定一边学习。
和前面分布学习不同,这里没有固定训练集,也不假设数据来自某个好分布。每一轮结果可能是 adversarial 的。目标不是“完全预测正确”,而是和最好的 expert 比,不要差太多。
基本流程
有
- 每个 expert 给一个 prediction 或 action。
- 算法根据 experts 的建议做自己的 prediction。
- 真实结果揭晓。
- 算法和 experts 都产生 loss 或 mistake。
- 算法更新对 experts 的信任。
一个 expert 的总 loss 记为
算法自己的 loss 记为
为什么不能保证比所有 expert 都好?
如果没有任何假设,adversary 可以让算法非常难受。例如两个 experts 每轮给相反建议,算法选哪边,adversary 就把真实答案设成另一边。这说明 deterministic algorithm 在最坏情况下无法保证每轮都接近正确。
所以我们比较的是:
事后看来最好的那个 expert。
这叫 regret analysis。regret 大致是:
Consistent Expert 和 Halving
如果假设存在一个从不犯错的 expert,最简单算法是维护所有还没犯错的 experts。
Consistent Expert:
- 每轮选一个目前还 consistent 的 expert。
- 如果它犯错,就删除它。
- 因为每次算法犯错时,至少删除当前选的 expert。
- 最多犯
次错。
Halving algorithm 更聪明:
- 每轮让所有 remaining experts 投票。
- 算法采用多数意见。
- 如果算法犯错,说明多数 remaining experts 都犯错。
- 因此 remaining experts 数量至少减半。
所以最多犯:
次错。
MWU 的核心直觉
Multiplicative Weights Update (MWU) 不直接删除犯错 expert,而是降低其权重。
每个 expert
如果 expert
犯错越多,权重越小;但不会像 halving 那样一次删除。这让算法可以处理“没有完美 expert”的情况。
potential function 证明怎么读?
MWU 分析通常看总权重:
证明有两边:
上界:如果算法这一轮犯错,说明被算法支持的一侧权重大。犯错后这些权重会被乘
下界:最好的 expert
权重永远是总权重的一部分。如果它犯了
把总权重的上界和下界夹起来,就能推出算法 mistakes
这叫 potential method,因为
deterministic MWU 和 randomized MWU
Deterministic MWU 通常用于 experts 给 binary predictions 的情况。算法看 weighted majority:哪边权重大,就预测哪边。
Randomized MWU 更一般。算法按权重比例随机选择 expert:
如果 expert
更新常写成:
它给出的是 expected regret bound。
怎么选?
太小:犯错 expert 权重降得太快,可能过早放弃暂时表现差但长期好的 expert。 太接近 1:权重变化太慢,算法学习慢。
讲义中的 bound 往往含有
或类似形式。选
当知道
interval guarantee 的直觉
Tutorial 中有题目要求对每个时间区间都和该区间最好的 expert 比。这比只和全局最优 expert 比更强。
直觉做法是把时间切成 chunks,或者在不同起点重新启动多个 MWU 实例。这样每个区间都能找到一个“在该区间开始不久启动”的实例,与区间内最好的 expert 比较。
这类题的证明仍然围绕总权重:
- 每次算法犯错,总权重下降。
- 任意固定 expert 在某段里的权重下降由它在该段的错误次数控制。
- 比较上下界得到区间内 mistake bound。
做题时怎么下手?
- 题目说有完美 expert:优先想 Consistent Expert 或 Halving。
- 题目说 best expert 犯
次错:用 MWU。 - 题目出现
:写权重更新 或 。 - 要证明 mistake bound:对总权重
做上界和下界。 - Randomized MWU:用期望线性性,算法 loss 是加权平均 loss。
- 需要优化
:把 bound 中依赖 的项平衡。
1. Learning from experts setting
有
每轮:
- expert
给建议:
- algorithm 输出预测:
- 真实值
revealed; - algorithm cost:
总错误:
best expert in hindsight:
目标不是让
2. Impossible results
任意 deterministic algorithm,adversary 可以每轮设:
使:
随机算法也不能保证绝对错误小:对 uniformly random truth
sequence,期望错误至少
即使与 best expert 比较,deterministic algorithm 也无法突破 factor 2 下界。
3. Consistent Expert algorithm
若存在一个 expert 从不犯错:
维护还没犯错的 expert 集合
每次算法犯错,至少删除当前跟随的 expert。因为至少有一个 perfect expert 永远不被删除:
4. Halving algorithm
仍假设存在 perfect expert。每轮对当前
若算法犯错,说明至少一半
因此:
5. Basic MWU
不再要求 perfect expert。给每个 expert 权重,初始
每轮:
- 输出 weighted majority;
- 对犯错 expert:
。
若
6. General deterministic MWU
对任意
解释:
小:接近 halving,适合 best expert 很准; 大:更容忍 best expert 偶尔犯错。
7. Randomised MWU
随机版不是 weighted majority,而是按权重随机抽一个 expert 并跟随。
第
所以:
权重更新:
分析得到:
当
随机化绕过了 deterministic factor 2 barrier,但 guarantee 是 in expectation。
8. Potential function method
Week 12 所有算法分析都用 potential:
证明套路:
- 上界:算法每次犯错时
下降; - 下界:best expert 的权重仍然不太小;
- 联立得到
或 bound。
9. Log base
Deterministic MWU 讲义常用
本周核心记忆
| 主题 | 关键结论 |
|---|---|
| Best expert | |
| Absolute guarantee | adversarial setting 中不可能 |
| Consistent expert | 若 |
| Halving | 若 |
| MWU |
|
| General MWU | |
| Randomised MWU | |
| Potential | 总权重 |
| Parameter tradeoff |