[LG]《Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport》E Litman [Stanford University] (2025)
深度解析Scaled-Dot-Product Attention(SDPA)的数学本质,揭示其为单边熵正则最优传输(EOT)问题的唯一解,首次从一阶原理系统地解释了Transformer核心机制:
• 前向传播即解一侧Marginal约束的EOT,找到在相似度最大化与熵最大化间平衡的概率分布,凸显softmax为受限最大熵的自然产物。
• 反向传播梯度等价于强化学习中的优势函数策略梯度,具备方差减少特性,表明学习更新是基于最优控制的理性策略。
• 统一视角中,熵正则定义了注意力分布空间的信息几何,其Fisher信息矩阵(FIM)揭示了梯度更新的几何本质,标准梯度为自然梯度的对偶,体现了梯度下降在统计流形上的最优路径。
• 拓展框架涵盖Sparsemax、α-entmax、ALiBi等方法,支持结构先验与稀疏性设计,PriorSoftmax实现贝叶斯先验融合,为注意力机制定制化提供理论基础。
• 全局EOT模型完美对应整张注意力矩阵,非迭代闭式解提升理解深度与计算效率。
该论文深刻连接机器学习、最优传输和强化学习,赋予Transformer注意力机制坚实的优化与控制理论支撑,为设计新型注意力变体与稳定训练策略提供了理论指导和方法论启示。关注信息几何与优化潜能函数(Log-Sum-Exp)是理解SDPA前后传递本质的关键。🌐🔍
详见👉 arxiv.org/abs/2508.08369
深度学习 Transformer 最优传输 信息几何 强化学习 机器学习理论