Polymarket 套利圣经总结
Polymarket 套利圣经:从“价差”到“数学基础设施”
来源:https://x.com/MrRyanChi/status/2031292099384008810
原文由 @MrRyanChi 基于 @RohOnChain 的内容进行翻译、注释与改写,核心讨论的是:为什么 Polymarket 套利并不是“看到 YES + NO 小于 1 就下单”这么简单,而是一套依赖整数规划、Bregman 投影、Frank-Wolfe 算法与执行系统的完整数学基础设施。
一句话总结
预测市场套利的本质,不是手工找价差,而是把市场中的逻辑依赖、概率约束、订单簿深度与执行风险一起建模,然后用优化算法去系统性提取无风险或近无风险利润。
文章核心观点
1. 单一市场里的“加法套利”只是最表层
最直观的套利方式是:
- YES = 0.62
- NO = 0.33
- 总和 = 0.95
如果同时买入 YES 和 NO,总成本 0.95 美元,到期无论结果如何都能回收 1 美元,理论上锁定 0.05 美元利润。
但文章强调,这只是最简单、最容易被市场抹平的套利。真正的量化套利系统做的不是这道小学加法题,而是:
- 同时扫描成千上万个条件市场;
- 识别它们之间的逻辑依赖关系;
- 在毫秒级别内计算可行解与最优仓位;
- 再把订单簿深度、手续费与执行顺序风险一起纳入决策。
作者给出的判断很直接:
人与系统之间的差距,不只是速度,而是数学基础设施。
2. 真正的套利来自“跨市场逻辑依赖”
文章用一个典型例子解释:
- 市场 A:特朗普是否赢下宾夕法尼亚
- 市场 B:共和党是否在宾夕法尼亚领先 5 个百分点以上
这两个市场表面上各自都可能“定价正常”,但它们之间并不是独立事件。
因为: - “共和党在宾夕法尼亚大胜” 是 “特朗普在宾夕法尼亚获胜” 的子集; - 所以 B 的 YES,不可能在逻辑上比 A 的 YES 更“贵得离谱”; - 如果市场价格违反了这种逻辑,就会形成跨市场套利空间。
也就是说,套利的关键不在于一个盘口本身,而在于多个盘口之间是否存在被错误定价的约束关系。
3. 暴力枚举不可行,必须用整数规划描述“合法空间”
文章反复强调一个问题:
对于有 n 个条件的市场,理论上会有 2^n 种可能结果组合。规模一大,暴力搜索几乎立刻失效。
文中举例: - 63 个二元条件,就有 2^63 种结果; - 即便每秒检查 10 亿种组合,也需要数百年才能遍历完。
因此,量化系统不会去“枚举所有可能”,而是把问题改写成:
哪些价格组合是合法的?哪些价格组合违反了逻辑约束?
这时就要用到: - 整数规划(Integer Programming) - 线性约束 - 边际多面体(Marginal Polytope)
其思路是: - 不再一个个检查结果; - 而是直接用若干约束表达“合法结果长什么样”; - 只要当前价格偏离了这个合法空间,就意味着存在套利机会。
这一步,本质上是把套利问题从“枚举问题”变成“优化问题”。
4. 发现套利还不够,更重要的是算出“最优套利交易”
作者指出,找到定价矛盾只是第一步。
第二步更难:
如何在不破坏市场结构的前提下,算出最优的交易方向、交易规模和理论最大利润?
这里文章引入了两个关键概念:
Bregman 散度 / KL 散度
在预测市场里,价格不是普通数字,而是隐含概率。
因此,不能简单用“欧几里得距离”来衡量当前价格距离无套利空间有多远,因为: - 从 0.50 到 0.60 的变化,和从 0.05 到 0.15 的变化,虽然都相差 0.10; - 但信息含量完全不同。
在这种场景下,更合适的度量是: - Bregman 散度 - 在 LMSR 做市机制下,具体体现为 KL 散度
文章给出的核心结论是:
最大可提取的保证利润,等于当前市场状态到无套利空间的 Bregman 投影距离。
这意味着: - 投影方向告诉你该买卖什么; - 投影规模告诉你该买卖多少; - 投影距离则对应理论最大利润。
5. Frank-Wolfe 算法把理论变成可执行系统
直接求 Bregman 投影仍然很难,因为无套利空间本身过于复杂。
文章介绍了解法: - Frank-Wolfe 算法 - 配合 Gurobi 这类整数规划求解器
它的核心思想不是“一次性解完所有问题”,而是:
- 从一个较小的合法结果集合开始;
- 在当前集合上求一个局部最优;
- 再找一个新的合法顶点加入;
- 逐步逼近全局最优。
相比暴力枚举所有可能结果,这种方法只需要在每一轮迭代中扩展少量顶点,大幅降低了计算成本。
文中还提到: - 在实际研究中,50~150 轮迭代通常就足够收敛; - 随着比赛结果逐步确定,问题规模反而会缩小,因此后期求解速度会更快。
这说明,真正能跑起来的套利系统,本质上是“约束建模 + 数学优化 + 迭代求解”的组合。
6. 执行层才是大多数策略真正失败的地方
文章后半部分非常重要的一点是:
即便你发现了套利,也不代表你真的赚得到。
原因在于,Polymarket 使用的是 CLOB(中央限价订单簿),而不是原子化的一键组合成交。
这会带来几个关键风险:
非原子执行风险
你的套利通常需要下多笔单,但现实中: - 第一条腿可能先成交; - 第二条腿可能因为你的第一笔单已经改变价格而无法按预期成交; - 最后你从“锁定利润”变成了“裸露风险”。
VWAP 比报价更重要
真正的成交价格不是挂单页面显示的最优报价,而是: - 成交量加权平均价格(VWAP)
只要订单簿深度不够,你的大单就会不断吃掉更差价格的挂单,实际成交均价会明显劣于表面价格。
流动性决定你能赚多少钱
即使价差存在,如果订单簿深度很浅: - 理论上 15% 的套利空间, - 实际上可能只能在几百美元的深度里成交, - 最终只提取出几十美元利润。
所以一个“真套利系统”不仅要知道: - 有没有价差; - 还要知道: - 深度够不够; - 滑点多不多; - 多条腿能不能在可接受的风险下完成; - 扣除执行成本后是否仍有正利润。
7. 一套完整套利系统需要的,不只是模型,而是工程化能力
文章最后给出的完整系统非常像一条成熟量化生产线:
数据层
- 实时接入 WebSocket 数据;
- 监控订单簿更新、成交推送、市场创建和结算事件;
- 通过链上节点回溯大量历史交易数据。
依赖关系检测层
- 用大模型先做“市场依赖关系”的初筛;
- 再通过规则验证与人工复核去筛掉伪相关关系;
- 最终只保留真正可利用的套利组合。
优化引擎
- 先用简单线性约束做快速过滤;
- 再用整数规划 + Frank-Wolfe 做核心求解;
- 最后在执行前做一轮订单簿级别的现实校验。
仓位管理层
- 不是看到套利就满仓;
- 而是根据:
- 利润空间
- 完整成交概率
- 流动性上限
- 执行风险
- 去决定实际投入比例。
文章给出的结论很明确:
真正的差距,不是“你懂不懂套利”,而是你有没有一套能持续、规模化、低风险提取利润的系统。
我认为最值得记住的 5 个要点
1)预测市场套利首先是“约束问题”
不是看单个盘口便宜不便宜,而是看价格是否违反逻辑依赖。
2)暴力搜索没有意义
市场一复杂,组合空间指数爆炸,必须依赖整数规划和优化方法。
3)利润等于“偏离合法空间的程度”
Bregman 投影提供了一个非常优雅的解释:离无套利空间越远,理论利润越大。
4)执行风险能吃掉纸面利润
非原子执行、VWAP、流动性和滑点,决定了你能否把理论套利变成实际收益。
5)套利系统本质上是一套数学 + 工程 + 执行基础设施
不是“看见价差就下单”,而是完整的数据、建模、求解、验证、交易与风控系统。
一个更接地气的理解
如果把普通玩家和量化套利系统放在一起比较:
- 普通玩家:看见价差 → 觉得有机会 → 手动下单;
- 量化系统:识别逻辑依赖 → 建模合法空间 → 计算最优投影 → 模拟订单簿执行 → 控制滑点与仓位 → 自动并行成交。
所以文章真正要讲的并不是“Polymarket 有套利”,而是:
为什么预测市场套利已经从“投机技巧”进化成了一门依赖数学优化、工程系统与执行能力的产业化技术。
适合谁读
这篇内容尤其适合: - 对预测市场套利有兴趣的人; - 想理解 Polymarket 为什么会被量化团队持续抽取利润的人; - 想从“看机会”升级到“建系统”的交易者; - 对整数规划、LMSR、Bregman 投影、Frank-Wolfe 在金融市场中的应用感兴趣的人。
我的结论
这篇文章最有价值的地方,不是告诉你“Polymarket 上有钱可赚”,而是把一件常被讲得很浅的事讲透了:
套利并不是发现错误价格,而是系统性地识别、证明、求解并执行价格偏离。
当你理解这一点之后,就会明白:
预测市场里的真正护城河,不是消息,也不是速度,而是“把逻辑关系、概率结构和执行摩擦一起纳入系统”的能力。
原始链接
- Ryan Chi 改写版:https://x.com/MrRyanChi/status/2031292099384008810
- 原文作者:https://x.com/RohOnChain/status/2017314080395296995
- 相关论文:https://arxiv.org/abs/2508.03474