《THEORY OF DEEP LEARNING》
深度学习理论权威综述:普林斯顿 Arora 教授系列讲义
本讲义系统阐述了深度学习的数学基础、优化理论、泛化能力、非凸优化地形、隐式正则化、神经切线核(NTK)、生成模型、语言模型与对抗样本等核心主题。以下为部分关键内容梳理与洞见分享。
1. 优化基础与非凸优化地形
- 梯度下降(GD)与随机梯度下降(SGD)是深度学习的核心训练算法。在光滑损失下,GD保证收敛至梯度为零的驻点,但非凸性使得全局极小点无法保证。
- 现代神经网络训练常在所谓“稳定边缘(Edge of Stability)”区域迭代,即Hessian最大特征值接近2/η(η为学习率),表现出非单调但长期下降的损失曲线,挑战经典优化理论。
- 通过扰动梯度下降(Perturbed GD)等技术可有效逃离鞍点,理论与实践均支持其在高维空间中高效寻找二阶驻点。
2. 泛化理论与隐式正则化
- 传统泛化理论基于复杂度度量(如Rademacher复杂度、PAC-Bayes界),但对深度网络的过参数化现象解释不足。
- 近年来提出压缩框架说明深度网络通过训练过程隐式压缩,找到低复杂度解,从而实现良好泛化。
- 隐式正则化不仅来源于显式范数约束,更源自优化算法本身(如GD偏好最小范数解),网络参数化方式与优化几何显著影响最终模型。
3. 神经切线核(NTK)与超宽网络
- 当网络宽度趋近无穷时,训练动态可用NTK描述,变为核回归问题,理论上保证收敛与泛化。
- NTK揭示了深度网络优化与泛化的精细特性,如标签与核特征的投影决定训练速度。
- 实验显示NTK在小规模数据集表现优于传统核方法,但与有限宽度网络性能仍有差距。
4. 生成模型与对抗网络(GANs)
- GAN通过训练生成器与判别器对抗,推动生成模型逼近真实数据分布。然而模型容量限制与训练动态导致“模式坍缩”问题,即生成样本多样性不足。
- 理论指出低容量判别器无法防止模式坍缩,实际中通过生日悖论测试检测模型生成样本多样性。
- 训练动态非均衡性可能是避免模式坍缩与提升生成质量的关键。
5. 语言模型与技能出现现象
- 语言模型(LM)基于条件概率分解进行训练,经过大规模预训练后出现“技能”——对特定语言任务的掌握,且随着模型规模和数据量增长,技能呈现“渐进式”或“突现”。
- 构建了基于“技能图”的数学框架,将语言理解任务分解为技能集合的组合,定量分析技能掌握度与模型规模关系。
- 交叉熵损失分解为语言本质熵与“过剩熵”,模型规模增加主要减少过剩熵,提升理解能力。
6. 归因解释与模型可信度
- 影响函数(Influence Functions)与Shapley值提供对训练数据或输入特征对预测结果贡献的定量解释,支持模型透明化。
- 数据模型(Data Models)通过线性回归近似训练集子集对预测影响,揭示训练数据影响力分布。
- 通过近似与采样算法实现Shapley值高效估计,支撑实际可用的解释工具。
7. 对抗样本与鲁棒性
- 神经网络易受微小扰动影响,产生对抗样本,严重威胁模型安全性。
- 对抗训练(Adversarial Training)通过在训练中加入对抗样本提升鲁棒性,但存在效用与鲁棒性的权衡。
- 随机平滑(Randomized Smoothing)等方法提供可证明的鲁棒性保障,成为理论与实践的主流防御手段。
8. 归纳偏置与训练算法的隐式正则化
- 训练算法(如SGD、带动量的优化、归一化技术)通过影响参数轨迹及梯度估计,引导模型收敛至特定低复杂度解。
- 参数归一化(如BatchNorm、LayerNorm)引入尺度不变性,改变优化几何,支持更快收敛与更好的泛化。
- 动态学习率调整(包括指数增长学习率)在归一化网络中表现出理论与实证上的优越性。
9. SGD的随机微分方程(SDE)近似
- SGD的梯度噪声可用SDE模型近似,揭示了学习率与批大小等超参的调节原则(如线性缩放规则)。
- 该理论帮助理解训练动态、逃离鞍点机制及归一化网络的训练行为差异。
本讲义内容严谨而系统,涵盖了深度学习理论的广泛主题,既有经典理论,也包含近年突破,适合对深度学习理论感兴趣的研究者深入钻研。讲义链接:cs.princeton.edu/~arora/TheoryDL.pdf
