2026-04-25-深度学习会有一门科学理论吗?《There Will Be a Scientific Theory of Deep Learning》论文精读

一句话总结

深度学习正在从"试错炼金术"过渡为一门真正的科学。作者把这门正在浮现的学科命名为 learning mechanics(学习力学):它类比物理学中的经典 / 连续 / 统计 / 量子力学,从第一性原理出发,对训练过程的动力学、隐藏表示、最终权重以及测试性能给出可证伪的、平均情形下的定量预测,而不是经典学习理论那种最坏情况下的数学界。

"This paper makes the case that, yes, there will be a scientific theory of deep learning; that we can see pieces of this theory starting to emerge; and that this theory will take the form of a mechanics of the learning process."

这是论文开篇就放在加粗框里的总论点,几乎可以理解为这篇 25 页文章的"立场宣言"。


一、为什么要写这篇论文

1.1 现状:最强大但最神秘的方法

深度学习是机器学习里最强大、最有商业价值,但同时最不被理解的成员。模型在跑,scaling law 在跑,LLM 已经具备超人类能力,但我们对训练过程的理解几乎是经验式的:

  • 训练方法(Adam、residual、layer norm、warmup、cosine schedule……)多半靠试错和工程直觉而不是第一性原理;
  • 进入 LLM、Diffusion 时代,谜团反而比十年前更深——更大的模型、更多的涌现、更少的解释;
  • 经典 PAC 学习理论无法解释过参数化网络为何还能泛化(参数数量远超样本数,按经典理论应当过拟合);
  • 经典优化理论给的是函数的端到端保证,神经网络是高度非凸的。

经典学习理论 + 经典优化理论解释的是"简单、凸、稀疏"的模型;而真实的神经网络是"复杂、非凸、过参数化"的——而且实际表现远好于这些理论的预测

1.2 立场宣言

作者的态度非常明确:

"We should approach this task as scientists, embracing empirics, seeking unifying principles, and identifying recurring motifs."

也就是说:该领域的下一阶段,应该更像物理学的发展史,而不像数学的公理化构造。

物理学家研究的是力如何决定物体在物理空间中的运动;深度学习研究的,是梯度如何决定模型在参数空间中的离散运动。两者的核心都是 运动 + 相互作用,所以"力学"这个比喻是恰当的。

1.3 为什么"力学"这个名字最贴切

文章 Section 1.1 专门讨论了这个比喻:

物理学 深度学习
物体在空间中的连续运动 模型在参数空间中的离散更新
力 = 组件之间的相互作用 梯度 = 参数 / 数据 / 任务 / 学习规则之间的相互作用
力由场调和 梯度由损失函数调和
系统稳定在势能局部极小 网络收敛到损失景观局部极小
任何力学分支都依赖可解模型 深度线性网络、kernel regression、多指标模型
连续 / 统计力学使用简化极限 无限宽 / 深、惰性 vs. 富足
物理系统有特征参数(耦合常数、特征尺度) 神经网络有超参数(学习率、宽度等)
物理充满普适现象 不同架构 / 数据集学出相似表示

"All considered, the emerging science shares deep similarities with established branches of mechanics. By analogy to classical, continuum, statistical, and quantum mechanics, we suggest the intended theory be called learning mechanics."

二、五条证据:力学正在浮现

文章最核心的部分是 Section 2,给出五条独立的证据,每一条都对应物理学里一个已经成熟的范式。这是一张让人印象深刻的对照表(论文 Table 1):

维度 深度学习中的例子 物理学中的例子
2.1 可解析设定 deep linear networks, kernel regression, multi-index models 简谐振子、氢原子、Ising 模型
2.2 简化极限 lazy vs. rich, width/depth → ∞, small initialization 热力学极限、经典极限 ℏ→0、流体极限
2.3 简单经验律 neural scaling laws, edge of stability, neural feature ansatz Kepler、Snell、Boyle、Hooke、Newton、Faraday、Ohm、Poiseuille、Planck、Hubble 等
2.4 系统参数 step size as sharpness regularization, μP, width-scaling 量纲分析、无量纲化、混沌/有序判据
2.5 普适现象 不同架构/数据下相似的归纳偏置和表示 临界现象、重整化群流

下面把这五条逐个展开。

2.1 可解析设定(solvable settings)

"A reliable way to build scientific understanding in complex systems is to study pared-down yet representative settings in which quantitative calculations are possible."

物理学的进步往往从一个"能解出来"的简化模型开始:简谐振子、氢原子之于经典/量子力学,Ising 模型之于统计力学。深度学习也已经积累了一批这样的"基石模型"。

数据上的线性化:深度线性网络

把所有非线性激活函数去掉:

\[ f(\mathbf{x}; \boldsymbol{\theta}) = W_L W_{L-1} \cdots W_1 \mathbf{x} \]

输入是线性的,但对参数仍然高度非线性。Saxe 等人 2014 的经典工作证明了:在白化输入和任务对齐初始化下,奇异值动力学解耦为独立的伯努利 ODE,每个奇异模式按照其奇异值大小依次被网络学到——大的先学,小的后学。

这一现象后来被推广到贪婪低秩偏好(greedy low-rank bias):网络倾向于先学习低秩、信号清晰的成分,再学噪声。这被认为是深度网络泛化能力的来源之一。

参数上的线性化:NTK 与核回归

在初始化点 \(\boldsymbol{\theta}_0\) 处对网络做一阶 Taylor 展开:

\[ f_\text{lin}(\mathbf{x}; \boldsymbol{\theta}) = f(\mathbf{x}; \boldsymbol{\theta}_0) + \nabla_{\boldsymbol{\theta}} f(\mathbf{x}; \boldsymbol{\theta}_0)^\top (\boldsymbol{\theta} - \boldsymbol{\theta}_0) \]

这就是线性化网络——对参数线性,对数据仍非线性。它的训练动力学等价于带 神经正切核(NTK) 的核岭回归:

\[ K_\text{NTK}(\mathbf{x}, \mathbf{x}') = \nabla_{\boldsymbol{\theta}} f(\mathbf{x}; \boldsymbol{\theta}_0)^\top \nabla_{\boldsymbol{\theta}} f(\mathbf{x}'; \boldsymbol{\theta}_0) \]

NTK 视角的强大之处在于:可以精确预测线性化网络在任意目标函数 \(f^*\) 上的期望泛化误差,这是教科书上鲜有的"端到端定量预测"。

但这也是它的局限:NTK 完全看不到特征学习——隐藏表示在训练中不会改变。这正是为什么需要下面 2.2 的另一极限。

单/多指标模型与 GLM

输入是高斯,目标是低维投影的非线性函数:

\[ y = g(\mathbf{w}^{*\top} \mathbf{x}) + \text{noise} \]

在这种结构化任务上,浅层非线性网络可证明地优于核方法——因为它们能学到投影方向 \(\mathbf{w}^*\),而 NTK 的特征是固定的。这是过去三年统计物理 + 深度学习交叉里出产最丰的领域之一。

2.2 简化极限:揭示根本行为

现代神经网络是几千亿参数互相耦合的复杂系统,逐参数追踪没有意义。统计物理的经验是:极限往往让事情变简单——理想气体定律 \(PV = nRT\) 是无穷多粒子极限下的精确等式,但被广泛用来描述有限的真实气体。

深度学习里最重要的极限是 width → ∞,但这个极限的取法不唯一,给出的物理图像也截然不同。

Lazy / Kernel / Linearized 区间

最早的无限宽工作发现:把每层参数按 \(\text{width}^{-1/2}\) 缩小(LeCun 初始化),保证激活既不爆炸也不消失。这时网络在训练过程中几乎不动——权重的相对变化趋于 0。

但奇妙的是,这些"几乎不动"的小变化累积起来,仍然能让输出函数发生 O(1) 的变化。这就是 lazy / NTK 区间

  • 训练动力学 = 核岭回归;
  • 隐藏特征不学习——网络只是用初始随机特征做线性回归。

Rich / Mean-field / Feature-learning 区间

核区间的"特征不学"显然不像我们看到的真实深度学习。怎么修正?

输出层权重额外缩小一个 \(\text{width}^{-1}\)(而不是 \(\text{width}^{-1/2}\))。这样初始函数变成 0,但每一步梯度强迫权重必须改变 O(1) 才能产生输出。

Mei、Rotskoff & Vanden-Eijnden、Chizat & Bach 等独立给出这个 mean-field 极限。Yang & Hu 的 Tensor Programs 把它推广到任意深度——这就是后来著名的 μP(Maximal Update Parameterization)

在 rich 区间:

  • 隐藏特征真的会演化,神经元会专门化;
  • 在低维子空间任务中,第一层权重会集中到任务相关方向
  • 表现出贪婪低秩偏好——简单成分先学。

一张图:相同网络,不同区间

论文 Figure 2 是一个非常直观的实验:同一个 200 神经元的两层 ReLU 学生网络,去拟合一个三神经元教师。

\[ \hat{f}(\mathbf{x}) = \frac{\alpha}{n} \sum_{i=1}^n a_i \,\text{ReLU}(\mathbf{w}_i^\top \mathbf{x}) \]

只调输出乘子 \(\alpha\)

  • \(\alpha = 0.1\)(小):rich 模式——学生权重大幅迁移并聚拢到教师特征方向;
  • \(\alpha = 30\)(大):lazy 模式——学生权重几乎不动,但损失也下降。

两者都能拟合训练数据,但学到了完全不同的东西。这是过去三年深度学习理论里最重要的概念之一。

无限深度极限与其他

类似地,对深度做极限:每层缩放 \(\text{depth}^{-1}\) 给出平滑残差流(类似 Neural ODE);缩放 \(\text{depth}^{-1/2}\) 给出随机扩散残差流(类似 SDE)。Transformer 还有 head 数、KV 维度、context 长度、MoE 专家数等多个可极限化的轴。

离散化假设(Discretization Hypothesis)

这是 Section 2.2 提出的一个纲领性信念

"Most practical neural networks can be understood as noisy, finite approximations to models of infinite size."

类比就像数值求解 PDE:你把空间和时间网格化,得到一个有限差分方程;网格越细,离 PDE 越近。深度学习里,宽度、深度、step size、batch size、dataset size 都可能是这种"离散化误差"的来源。

如果这个假设成立——而它至今没有被精确表述或证明——那么学习率/宽度/深度都不是独立变量,而是同一个连续极限的不同截断。这会极大简化整个理论的形式。

2.3 简单经验律:复杂系统的"开普勒定律"

科学史上很多定律先有经验,再有理论:开普勒定律先于牛顿引力,玻意耳定律先于动理论,普朗克黑体律先于量子理论。深度学习里也已经积累了相当数量的"经验定律"。

神经缩放律(Neural Scaling Laws)

Kaplan 等 2020、Hestness 等 2017 的著名结果:在某个架构家族内,测试损失关于算力 \(C\)、数据量 \(D\)、参数量 \(N\) 都是漂亮的幂律

\[ L(C) \approx (C / 2.3 \times 10^8)^{-0.050} \] \[ L(D) \approx (D / 5.4 \times 10^{13})^{-0.095} \] \[ L(N) \approx (N / 8.8 \times 10^{13})^{-0.076} \]

这些指数 0.05、0.076、0.095 没有简单的有理数解释——不是 1/2 或 1/3 那种来自维度计数的数字。它们大概率与数据流形维度、特征叠加、任务结构有关,但至今没有任何理论能从架构 + 数据 + 优化器 a priori 推导出这些数字。预测出这些指数被列为开放方向 7。

稳定性边缘(Edge of Stability)

Cohen 等 2021 的发现:使用学习率 \(\eta\) 做全批 GD 时,损失 Hessian 的最大特征值(sharpness \(\lambda_\max\))经历两个相位:

  1. Progressive sharpening:缓慢上升;
  2. Edge of stability:在 \(\lambda_\max \approx 2/\eta\) 附近震荡。

这个 \(2/\eta\) 不是巧合:在凸优化中,\(2/\eta\) 是 GD 不发散的临界点。也就是说,GD 会自动把自己驱赶到稳定性边缘——它的训练轨迹不是平滑下山,而是"在悬崖边走"。

后续工作(Damian、Cohen、Li 等)已经把这种轨迹分解为平滑的、时间平均的梯度流 + 不稳定方向上的震荡——这是少数有定量预测精度的非线性训练动力学结果。

神经坍塌(Neural Collapse)

Papyan 等 2020:把分类网络训练到 0 损失之后,末层隐藏特征会坍塌为一个正则单纯形——

  • 同类样本的特征聚集到类均值;
  • 不同类的均值彼此等距且对称

后续证明:这是交叉熵 + 弱权重衰减下的能量极小构型。这就像晶体生长——最终结构只由能量函数决定,而不依赖训练路径。

神经特征 Ansatz(Neural Feature Ansatz)

Radhakrishnan 等 2024:训练后第一层权重的 Gram 矩阵 \(W_1^\top W_1\)输入梯度外积的均值成正比:

\[ W_1^\top W_1 \propto \mathbb{E}_{\mathbf{x} \sim \mathcal{P}_\text{data}} [\nabla_\mathbf{x} f(\mathbf{x}; \boldsymbol{\theta}) \nabla_\mathbf{x} f(\mathbf{x}; \boldsymbol{\theta})^\top] \]

这是一个非常强的经验律:网络的第一层权重并不是任意的,而是直接编码了梯度结构。这个公式在更深层也近似成立。

梯度流守恒律

线性网络中相邻层的协方差/Gram 矩阵差 \(W_\ell W_\ell^\top - W_{\ell+1}^\top W_{\ell+1}\) 在梯度流下守恒。这在非线性网络中推广为Noether 原理

  • ReLU 网络的尺度对称性;
  • BatchNorm 之前的层尺度对称性;
  • Softmax 之前的 logits 平移对称性;
  • Attention 中 K/Q 矩阵的旋转对称性。

每一种对称性都对应一个守恒量——这就是深度学习的"角动量守恒"

给理论家的启示

"Most macroscopic statistics don't obey a simple and general mathematical law — or at least don't seem to until plotted against the right quantity."

这是 Section 2.3 末尾我最喜欢的一句话。意思是:经验律不是随便看就能看见的——你必须找到对的坐标轴,才能让 power-law 浮现。Kepler 之所以能写下椭圆律,是因为他先弄清楚了用什么测量。深度学习里也一样——找到对的"温度/压力"才能看到对的"理想气体律"。

2.4 超参数可解耦

深度学习的超参数极多:学习率、batch size、动量、初始化方差、宽度、深度。文章指出,过去几年理论界终于开始系统性地解耦它们,并且数学结果非常实用。

优化器超参数:linear scaling rule

SGD 的关键不变性:同时把 \(\eta\) 和 batch size \(B\) 加倍、把步数减半,轨迹几乎不变。这就是 Goyal 等 2017 的 linear scaling rule

\[ \eta \cdot B = \text{const} \]

这条规则可以用 SDE 视角解释:SGD 是某个底层 SDE 的离散化,它的"温度"由 \(\eta/B\) 决定。Malladi 等把它推广到自适应优化器,得到 \(\eta \propto \sqrt{B}\)

隐式曲率正则化

经验上:大学习率 + 小 batch 在训练后期自动压低 Hessian——损失景观变得更平坦。理论上有几个互补的解释:

  • Blanc 等 2020:标签噪声 SGD 等价于在原损失上加曲率惩罚;
  • Damian 等:Edge of Stability 下的震荡等价于对三阶曲率的反馈;
  • Cohen 等 2025:full-batch 全过程都可以用 曲率惩罚梯度流 准确建模。

也就是说:优化器的"隐式效应"很大程度上等价于显式地加上一个曲率正则项。这是一个非常优美的统一图景。

μP:可迁移的学习率

最实用的结果:Yang & Hu 2021 在 Tensor Programs 框架下证明,存在一种参数化(μP)使得最优学习率在不同宽度下几乎不变

论文 Figure 5 对比了同样的 Transformer 在 standard parameterization 与 μP 下训练 WikiText-2:

  • standard:宽度从 128 → 8192,最优 \(\log_2 \eta\) 漂移了 6 个数量级;
  • μP:最优 \(\log_2 \eta\) 几乎水平。

实际意义:先在便宜的小模型上调好超参数,然后零成本迁移到生产规模的大模型。这是过去几年深度学习理论里实践影响最大的成果之一。

后续工作把这套思路推广到深度缩放(Yang、Bordelon、Dey 2025),让 ResNet 也能 hyperparameter transfer。

2.5 普适现象:不同系统学到相似的东西

"Universal behavior across systems can be understood with the renormalization group — a technique which formalizes the idea that, as one examines a system from a more and more zoomed-out perspective, most details 'wash out' and only a handful of aggregate effects remain important."

这是统计物理的核心思想:当你把临界系统逐步粗粒化,只有少数"算子"保留,大多数细节"洗掉"。深度学习里也观察到同样的现象

普适的归纳偏置

  • CNN 与 Transformer 在视觉任务上 匹配 compute、数据、训练 recipe 后性能等价
  • 三种 Diffusion 模型(DDPM、一致性模型、U-ViT)在同一噪声种子下生成几乎完全相同的图片(论文 Figure 6a)。

这强烈暗示:架构差异只是表面,真正的学习偏置由数据 + 优化器 + 损失共同决定。

数据的普适结构

No Free Lunch 告诉我们:在完全任意数据上不存在通用的学习器。所以深度学习一定是在利用真实数据的某种共同结构

  • 图像、音频信号有 power-law 谱、稀疏性、多尺度结构;
  • 文本符合 Zipf 律;
  • 自然信号有可被 wavelet 表示的层级组合性。

这些共同结构是为什么"一个 Transformer + SGD"能跨模态工作的根本原因。

表示的普适性

Bansal 等、Huh 等的"Platonic Representation Hypothesis":不同模型——甚至不同模态——随着规模增长,内部表示越来越像。论文 Figure 6b:DINOv2 视觉模型与不同规模语言模型的表示相似度,随语言模型性能线性增长

这意味着:

"If the internal structure of trained neural networks primarily reflects the structure of data, then in studying neural networks we may ultimately be studying the structure of data and its generating processes."

也就是说——研究神经网络,最终可能是在研究世界本身的统计结构

三、力学的七条期望(Seven Desiderata)

作者明确写下他们想要的"learning mechanics"应该满足的七条标准,以避免把这门学科变成另一个"无用但漂亮的形式系统":

  1. Fundamental(基础性):从神经网络训练的第一性原理出发推演;中间假设可以用,但必须最终能被解释;
  2. Mathematical(数学性):必须能给出无歧义的定量陈述——不能是一门定性科学;
  3. Predictive(可预测性):每一项发展都要有可重复的实验验证
  4. Comprehensive(全面性):覆盖训练过程、隐藏表示、最终权重和性能——但不试图描述一切。"全分辨率的世界地图和世界本身一样大,因此毫无用处。"
  5. Intuitive(直观性):追求简单深刻的洞察,而不是技术复杂性;
  6. Useful(有用性):能服务于实际深度学习工程——大幅减少调参、指导数据集设计、为 AI safety 提供基础;
  7. Humble(谦逊性):明确自己适用的范围,越界就承认它会失效。"每一门物理学都有它的失效区。"

这七条非常物理学家。第 4 和第 7 条尤其重要——作者明确反对"覆盖一切"的雄心,承认会有大量实际场景这门学科说不上话——这是科学的姿态而不是数学的姿态。

四、为什么 learning mechanics 重要

文章 Section 1.2 把动机分成三类:

4.1 科学层面

"Technology has often preceded scientific theory, as was the case with steam engines' role in motivating thermodynamics... A similar story played out in flight."

蒸汽机推动了热力学,飞机推动了空气动力学,深度学习有可能推动一门关于"学习"本身的物理学。如果神经网络与生物大脑共享某些深层学习原理,那么这门学科的产出会反哺神经科学和认知科学。

4.2 实践层面

成熟的深度学习理论可以替代大量试错——文中已有先例:

  • 经验缩放律 → 指导算力 / 数据 / 参数预算分配;
  • μP → 跨宽度的学习率迁移;
  • NTK → 数据归因(influence functions);
  • 理论驱动的优化器(Muon 等)。

这些都还是"局部理论",但已经在产生工程价值。

4.3 安全层面

"It is difficult to regulate a technology that we cannot clearly describe."

监管必须基于对系统的清楚描述。一门定量的、可解释的学习理论是 AI safety 工作的基础设施——尤其是与 mechanistic interpretability 联手时。

五、Learning Mechanics 与机制可解释性的关系(Section 3.1)

这是论文我个人觉得最有启发性的一节。作者用了一个非常漂亮的类比:

"Where mechanistic interpretability aims to be the biology of deep learning, learning mechanics should aspire to be its physics."

5.1 两者各自做什么

  • 机制可解释性(mech interp):识别训练好的网络内部的"特征 / 电路 / 算法"——是关于"网络在做什么"的逆向工程,定性、依赖人类判断;
  • 学习力学:从数学第一原理出发,推导训练为什么会产生这些结构——定量、可证伪。

5.2 双向贡献

学习力学 → 机制可解释性

学习力学可以形式化机制可解释性的核心假设。这些假设至今很多还是"工作信念":

  • Linear representability:特征对应于激活空间的线性方向(Mikolov 等 2013 起);
  • Locality:特征 / 电路定位在特定子组件上;
  • Sparsity:每个特征只在小部分输入上激活;
  • Compositionality:复杂表示由简单子机制组合而成。

学习力学的任务,是回答这些假设何时成立、何时失败、为什么

进一步——学习力学应该解释机制如何在训练中涌现。已有进展:

  • Induction head 的形成相变(Olsson 等);
  • Grokking 与突现(Nanda、Gopalani、Park 等);
  • 电路形成的相变;
  • 线性网络中"由懒到富"的精确动力学(Dominé 等 2025)。

"Nothing in biology makes sense except in the light of evolution."(Dobzhansky) 类似地,"Nothing in trained networks makes sense except in the light of the processes that give rise to them."

机制可解释性 → 学习力学

反过来,mech interp 给学习力学提供经验目标。深度学习理论历来用过简化的数据模型(高斯输入、随机标签等),离实际很远;mech interp 在真实大模型上发现的现象(induction head、Fourier 特征、grokking、特征叠加),给理论提供了具体可建模的目标

最近几条由 mech interp 驱动的理论工作:

  • In-context learning 中 induction head 的涌现(Bietti、Nichani、Reddy 2023-2024);
  • 模算术任务中的 Fourier 特征(Morwani、Kunin、Marchetti 2023-2026);
  • 数据相关性结构如何决定学到的几何(Engels、Prieto、Karkada 2024-2026)。

六、对常见质疑的回应(Section 4)

作者用了一整节回应五个常见的质疑:

6.1 "几十年都没找到,还会有吗?"

回应:

  • 现在有了前所未有的实证基础——表示普适性、edge of stability、scaling law 都是过去 5 年才出现的;
  • 领域变得更大——物理、统计、神经科学的人才都涌入;
  • 历史上任何主要科学的成熟都用了几十年,不必气馁。

6.2 "现在能解的都太初级,远不够 LLM"

回应:

  • "局部理论"本身就有用——周期表是先于量子化学的;
  • 深度学习也能积累一批小定理:缩放律的部分预测、μP 的精确数学、NTK-based 数据归因、理论驱动的优化器;
  • 这些不是终极理论,但已经在帮上忙了。

6.3 "高层行为才重要,微观理论看不见"

回应:作者承认要研究三个层次,并把它们对应到 Marr 的三层:

  • 学习力学(physics) → 训练动力学;
  • 机制可解释性(biology) → 网络如何工作;
  • 模型心理学(psychology) → 模型的能力、个性、目标。

三者互补,不可替代。

6.4 "我们要的是数据理论,不是网络理论"

回应:是的,但数据理论本身就是 learning mechanics 的一部分——见开放方向 2。

6.5 "AI 会先于人类理解自己"

回应:

  • 即使如此,理论今天已经有用
  • 突破最可能来自人 + AI 协作,而不是 AI 单干;
  • AI safety 需要人类可读的理论。

七、十大开放方向(Section 5)

这是论文最实用、也最像研究路线图的一节。作者明确说:这是希望未来十年能被 learning mechanics 解决的问题。

1️⃣ 真正"深 + 非线性"的可解模型

现状:deep linear 抓住参数非线性,kernel 抓住数据非线性,两者兼具的工具还不存在。能否构造一类同时刻画 feature learning、深度作用、optimization 现象、以及现代架构创新(normalization、residual、self-attention、gated nonlinearity)的可解模型?

2️⃣ 自然数据结构的理论

模型大概是从数据中提取了一组"充分统计量"。这些统计量是什么?它们如何进入模型?在不同训练阶段是否变化?能否用带可拟合参数的模型来描述真实数据集?

3️⃣ 深度学习是否隐式最小化某种"功能复杂度"

直觉:同样在零损失流形上,训练偏好"简单函数"。问题是:简单是什么意思?Kolmogorov 复杂度?最大间隔?范数?电路复杂度?mech interp 发现的稀疏字典是不是这种最小化的解?

4️⃣ 如何形式化定义"特征"

mech interp 反复使用 feature / circuit / mechanism 这些词,但它们没有严格的数学定义。能否给出 linear representability、locality、sparsity、compositionality 的精确表述,并从中导出可证伪的预测?

5️⃣ 有限网络是否就是无限极限的离散化近似

也就是把 Discretization Hypothesis 变精确。宽度、深度、学习率、batch size 是不是都可以这么理解?连续极限到底是什么样子?

6️⃣ 能否消除所有超参数

μP 已经表明很多超参数是"假自由度",可以通过正确参数化吸收。能否走到尽头?消除所有超参数后,剩下什么?

7️⃣ 能否先验预测缩放律指数

我们能拟合 0.076 这个数字,但没有任何理论能从 architecture + data + optimizer a priori 推导出它。这是衡量任何理论是否真"work"的最严苛检验。

8️⃣ 损失曲率与架构、特征、泛化的耦合

经验上:优化器隐式压低 Hessian → 提高泛化。但为什么会 progressive sharpening?为什么曲率正则又能提高泛化?这与架构、数据有什么关系?

9️⃣ 什么造就了好的优化器

为什么 Adam、Muon 在 LLM 上稳定胜过 SGD?自适应预条件如何与架构、损失景观相互作用?能否给出预测哪个优化器适合什么任务的原则?

🔟 表示普适性的精确版本

不同种子、不同架构、不同数据训练出来的大模型为何学到相似表示?精确化这个观察会让我们对"为这一个模型建立的理论是否能迁移到其他模型"非常有信心。

配套讨论平台:learningmechanics.pub/openquestions

八、给入门者的建议(Section 6)

最后一节是写给想进入这个领域的年轻研究者的,浓缩成六条原则:

  1. 多做实验:深度学习实验成本极低、周转极快——这是它相比传统物理学的巨大优势,要充分利用;
  2. 简单与洞察 > 技术复杂度:会议系统倾向奖励"难懂的定理",但真正有影响力的理论是简单的
  3. 看重科学理解,而不是 SOTA:跑分游戏交给应用科学。基础科学的目标是理解,不是刷榜;
  4. 不要孤军奋战:去看 Physics Meets ML / Physics of Learning 系列,去导师/合作者那里讨论;
  5. 早期多尝试不同问题:开放问题太多,没人能一上来就找对。换问题不丢人;
  6. 投资底层工具:随机矩阵、统计物理、经典优化、信息论、小波、图模型——这些"老派"工具在 learning mechanics 里有大量未被利用的潜力。

九、我的几点感受

读完整篇文章,我有四点比较强烈的感受:

9.1 这是一次"范式声明"

作者对"理论"的定义不是数学定理(worst-case bound),而是物理意义上的可证伪定律(average-case prediction)。这其实是过去十年深度学习理论领域自身定位的一次切换——从"证明界"切换到"刻画规律"。把这件事写成宣言、给出名字(learning mechanics)、立下七条原则、列出十大问题——这是一篇学科诞生书

9.2 "力学"这个比喻非常贴切

物理学的成熟也不是从一开始就有相对论和量子场论,而是从开普勒、胡克、波义耳、欧姆这些经验律一条一条长出来的。

回头看 deep learning:

  • Kaplan scaling law ↔︎ Kepler 的行星椭圆律;
  • edge of stability ↔︎ Hooke 的弹性定律;
  • neural collapse ↔︎ 晶体学的对称性结论;
  • μP ↔︎ 流体力学的 Reynolds 数;
  • platonic representation ↔︎ 临界现象的普适类。

我们正处在经验律积累的中段,距离统一理论可能还有十几二十年——但这是一条已经看得见路径的发展轨道。

9.3 力学 ↔︎ 机制可解释性的合作最值得期待

这是论文最具战略眼光的一段。机制可解释性这两年发现了一批"显微镜下的现象"(induction head、特征叠加、稀疏字典分解),但缺一个关于这些机制如何在训练中涌现的动力学理论。这正是 learning mechanics 应该填补的位置。

我个人猜测:未来五年,最有突破的工作会出现在 mech interp 提供观测、learning mechanics 提供解释模型的接口处——就像分子生物学和物理化学的合流催生了结构生物学一样。

9.4 一个判别理论真假的硬指标:先验预测缩放律指数

如果某个理论能告诉你:"给我这个数据集 + 这个架构 + 这个优化器,我预测 power-law 指数是 0.078"——而你测出来真是 0.076 或 0.080——那它就值得被相信。在那之前,所有的"理论"都还停留在解释的层面,距离物理学定义的"理论"还有距离。

这是 learning mechanics 的"水星近日点进动"——能否做出当时无法用其他方法做出的具体数值预测

总结

如果说过去十年深度学习的口号是 "More is different"(涌现),那么下一个十年的科学议程,可能就是这篇论文倡导的:

搞清楚为什么会涌现,并把它写成方程。

这篇 25 页论文不是一篇技术论文,而是一篇学科建设书——它给出领域名字、原则、地图、议程和入门指南。对于任何想认真理解深度学习"为什么 work"的人,都值得反复读。


论文信息

  • 标题:There Will Be a Scientific Theory of Deep Learning
  • 作者:Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix-Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull
  • 来源:arXiv:2604.21691v1 [stat.ML],2026 年 4 月 23 日
  • 配套材料:learningmechanics.pub
  • 通讯:james.simon@berkeley.edu