[LG]《Scaled-Dot-ProductAttentionasOne

爱生活爱珂珂 2025-08-14 06:33:17

[LG]《Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport》E Litman [Stanford University] (2025)

深度解析Scaled-Dot-Product Attention（SDPA）的数学本质，揭示其为单边熵正则最优传输（EOT）问题的唯一解，首次从一阶原理系统地解释了Transformer核心机制：

• 前向传播即解一侧Marginal约束的EOT，找到在相似度最大化与熵最大化间平衡的概率分布，凸显softmax为受限最大熵的自然产物。

• 反向传播梯度等价于强化学习中的优势函数策略梯度，具备方差减少特性，表明学习更新是基于最优控制的理性策略。

• 统一视角中，熵正则定义了注意力分布空间的信息几何，其Fisher信息矩阵（FIM）揭示了梯度更新的几何本质，标准梯度为自然梯度的对偶，体现了梯度下降在统计流形上的最优路径。

• 拓展框架涵盖Sparsemax、α-entmax、ALiBi等方法，支持结构先验与稀疏性设计，PriorSoftmax实现贝叶斯先验融合，为注意力机制定制化提供理论基础。

• 全局EOT模型完美对应整张注意力矩阵，非迭代闭式解提升理解深度与计算效率。

该论文深刻连接机器学习、最优传输和强化学习，赋予Transformer注意力机制坚实的优化与控制理论支撑，为设计新型注意力变体与稳定训练策略提供了理论指导和方法论启示。关注信息几何与优化潜能函数（Log-Sum-Exp）是理解SDPA前后传递本质的关键。🌐🔍

详见👉 arxiv.org/abs/2508.08369

深度学习 Transformer 最优传输信息几何强化学习机器学习理论

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Shadow：开源背景编程智能代理，专为理解、推理并改进现有代码库而设计，支持本

2

CloudBase AI ToolKit 助力全栈开发，从创意到上线全流程智能加

3

MCP-Use：开源利器，实现任意LLM与MCP服务器的无缝连接，打造具备工具访

4

从4000+ n8n模板中精选的24个「AI 出海营销Agent」，覆盖八大核心

5

Gemini CLI 最新发布了与 VS Code 的原生集成，极大提升了开发者

6

[LG]《Topos Causal Models》S Mahadevan [Ad

7

[LG]《OverFill: Two-Stage Models for Effi

8

[LG]《Scaled-Dot-Product Attention as One

9

[RO]《Rational Inverse Reasoning》B Zandon

10

[LG]《Understanding Transformers through

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

以后不会再给女朋友买iPhone手机，并不是iPhone手机不好，而是她买了一大

2

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

3

你看人家一加这更新日志做的，都跟人家学学。

4

华为Mate70全系列官方指导价价格调整，渠道价等我更新，过两天部分机型会有不小

5

站哥一旦爆料，基本上已经是板上钉钉，没跑了！荣耀Magic8增加Ultra版！

6

华为Mate70系列今日全渠道降价促销🙌Mate70数字版降价400元；

7

荣耀这操作真的是让人惊掉下巴！原本以为遥不可及的1万毫安大电池，就这么轻描淡写的

8

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

9

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

10

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等

科技最新文章

1

直屏手机推荐来啦！荣耀Magic7绝对是不错的选择，搭载骁龙8至尊版芯片

2

荣耀X70拆机来看8300mAh的青海湖电池直接占了机身60%的空间！主板被压缩

3

听我一句劝，2025年买手机就得这么买：1、要是追求智慧又安全，那荣耀简直是

4

估计不少人已经发现，手机这玩意就别买太贵的现在的千元机其实就能用好几年大多数

5

英伟达说H20没后门，可玉渊潭天把芯片拆到晶体管级，发现三条可疑信号线直通管理引

6

大哥这手机，我闭着眼睛都能认出来是啥

7

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

8

中美芯片大战，日本人突然发现了一个重大的秘密！美国靠着尖端芯片死磕中国，而中国呢

9

荣耀Magic8Pro彻底杀疯了！这次配置直接掀了友商的桌子。超大电池独步

10

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等