【DeepSeek发布新模型V3.2-Exp：基于DSA稀疏注意力机制的长上

【DeepSeek 发布新模型 V3.2-Exp：基于DSA稀疏注意力机制的长上下文优化】

• 【模型概述】：

• DeepSeek 团队推出最新模型【DeepSeekV3.2-Exp】，在之前 DeepSeekV3.1-Terminus 基础上通过持续训练集成全新【稀疏注意力机制 (DSA)】。

• DSA与【高效闪电索引器】结合，在训练和推理环节显著提升效率，尤其在处理【长上下文场景】时优势明显。

• V3.2-Exp 是一款【实验性】的稀疏注意力模型。

• 【架构部分】：

• 【唯一修改】：通过持续训练引入DSA。

• 【DSA构成】：

• 【闪电索引器 (Lightning Indexer)】：

• 核心作用：计算查询 (query) 和前面某个 token 之间的【索引分数 (LTS)】。

• 决定：根据分数选择哪些 token 进行后续注意力计算。

• 计算效率：采用【GELU函数】作为激活函数，吞吐量高，且索引器头 (indexer heads) 较少，可用【P8精度】实现，计算效率突出。

• 目的：避免引入新组件导致计算成本大幅增加。

• 【细粒度Token选择机制 (Fine-grained Token Selection)】：

• 对于每个查询，根据索引分数【只筛选出排名在前K位】的token（对应的键值对）。

• 注意力输出计算：查询和筛选后的关键token（CS）进行注意力机制运算。

• 效果：模型无需对所有token都进行注意力计算，只针对筛选后的关键token处理，【大幅降低计算量】。

• 【MLA架构集成】：

• DSA并非孤立存在，基于DeepSeek在2024年提出的【MLA (Multi-Layer Attention) 架构】实例化而来。

• 目的：保证训练的连贯性和兼容性。

• MQA模式 (Multi-Query Attention)：为提升计算效率，每个键值对必须在【多个查询之间共享】。DeepSeek选择在MLA的MQA模式上实现DSA。

• Transformer作者之一诺姆·莎尔于2019年提出。

• 每个潜在向量在查询token的所有查询头之间共享，满足键值对共享需求，进一步提升计算效率。

• 【开源实现】：提供了DeepSeekV3.2-Exp的开源实现，方便深入研究代码逻辑。

• 【训练流程】：

• 【基础】：从DeepSeekV3.1-Terminus的【基础检查点】开始，上下文长度已扩展到【128K】。

• 【两大阶段】：

• 【持续预训练阶段 (Continuous Pre-training)】：

• 使用与V3.1-Terminus相同的【128K上下文扩展数据分布】，保证数据连贯性。

• 【密集预热阶段 (Dense Warm-up)】：

• 核心目标：【初始化闪电索引器】。

• 方式：模型保持【密集注意力计算】，未启用稀疏筛选。

• 参数冻结：除闪电索引器外，所有模型参数【冻结】。

• 目的：让索引器输出与主注意力分布一致，为稀疏训练铺垫。

• 对齐方式：将主注意力分数求和，沿序列维度进行【L1归一化】得到目标分布P，设置【KL散度损失】作为索引器训练目标。

• 参数：学习率【10^-3】，训练【1000步】，总计约【2.1B个Token】。

• 【稀疏训练阶段 (Sparse Training)】：

• 引入【细粒度Token选择机制】，模型开始适应DSA稀疏模式。

• 优化：【所有模型参数】进行优化更新。

• 对齐：保持索引器输出和主注意力分布对齐，但只考虑【筛选后的Token集合】。

• 技术细节：索引器输入从计算图中分离，独立优化。索引器训练信号来自KL散度损失，主模型优化依赖语言模型损失，两者独立互不干扰。

• 参数：学习率【7.3 × 10^-6】，每个查询token选择【2048个】键值对token，训练【15000步】，总计约【943.7B个Token】。

• 【后训练阶段 (Post-training)】：

• 目标：打造最终的DeepSeekV3.2-Exp模型。

• 方式：仍采用与稀疏持续预训练阶段相同的DSA稀疏注意力方式。

• 保持一致：与DeepSeekV3.1-Terminus相同的【后训练流水线、算法和数据】，以便准确判断DSA影响。

• 【核心环节】：

• 【专家蒸馏 (Expert Distillation)】：

• 思路：针对每个任务或领域开发【专门的专家模型】。

• 领域：包括写作、通用问答、数学、编程竞赛、通用逻辑推理、智能体编程、智能体搜索。

• 训练：投入大规模【强化学习】计算资源。

• 数据：使用不同模型生成两种类型训练数据：【思考模式】（用于链式推理）和【非思考模式】（用于直接响应生成）。

• 效果：蒸馏后模型性能略低于专家模型，但后续RL训练可消除差距，使V3.2-Exp在多领域同时具备【接近专家模型的能力】，提升通用性和效率。

• 【混合训练 (Mixed Training)】：

• 算法：仍采用【分组相对策略优化 (GRPO)】作为RL训练算法。

• 改进：将推理训练、智能体训练、人类对齐训练这三个原本分开的阶段【合并为单个RL阶段】。

• 好处：

• 实现【更好的性能平衡】，避免性能过强或过弱。

• 规避【灾难性遗忘】问题（学习新知识时忘记旧知识）。

• 【奖励设计】：

• 推理和智能体任务：【基于规则的结果奖励】（是否正确）、【长度惩罚】（避免过长无意义内容）、【语言一致性奖励】。

• 通用任务：【生成式奖励模型】，为每个提示词设置专门评估标准，评估更灵活细致。

• 【平衡考量】：平衡【长度与准确性】（避免过长或过短而牺牲准确性）和【语言一致性与准确性】。

• 【评估结果】：

• 【评估维度】：模型能力、推理成本、未来真实场景验证计划。

• 【模型能力评估】：

• 基准测试：与DeepSeekV3.1-Terminus全面对比。

• 结果：V3.2-Exp在长序列处理计算效率显著提升，但在短上下文和长上下文任务中【没有明显性能下降】，兼顾了效率和性能。

• 个别测试略低：在GPQA Diamond (Pass(Pass和 HMMT2023 (Pass中表现略低。

• 原因：V3.2-Exp生成的推理token数量更少。

• 结论：性能差距与【模型生成内容长度】相关，而非DSA机制本身。调整生成数量后可达到相当性能。

• RL训练曲线：两款模型在BOSC和SWE Verified任务上的准确率同步稳步提升，输出token数量变化趋势相似，说明DSA机制【未影响训练稳定性】。

• 【推理成本评估】：

• 【理论层面】：

• 传统密集注意力：计算复杂度【O(L^2)】（L为序列长度），长序列计算量平方级增长。

• DSA引入后：核心注意力计算复杂度降至【O(L*K)】（K为每查询键值对token数量，K远小于L），计算量增长速度变为【线性级】，大幅降低成本。

• 闪电索引器：计算复杂度仍为O(L^2)，但由于索引器头少、可用P8精度实现，实际计算成本非常低。

• 综合优化：DSA在长上下文场景实现【显著端到端加速】。

• 【实际服务部署】：在【H800 GPU群】上部署测试。

• 成本对比：DeepSeekV3.2-Exp每百万token成本始终低于DeepSeekV3.1-Terminus。

• 优势：在【128K长上下文】场景下成本优势更明显。

• 优化：处理短序列预填充时，采用【掩码模式】模拟DSA效果，确保在短上下文下也有高效率。

• 【未来验证计划】：

• 严谨态度：内部评估前景乐观，但计划在【真实世界场景】中进行更大规模测试。

• 目的：实验室基准测试无法完全覆盖真实场景复杂情况，希望发现DSA架构潜在局限，进一步优化模型，在实际应用中表现更稳定出色。

• 【总结与展望】：

• DeepSeekV3.2-Exp通过引入DSA，成功在【长上下文处理效率】上实现突破，同时保持了与之前版本相当的【性能水平】。

• 为长上下文AI任务提供【更高效、更经济】的选择。

• 架构设计、训练过程的严谨性和评估阶段的全面性体现了DeepSeek团队的专业能力。

• 作为实验性模型，未来仍有【很大优化空间】，如提升筛选准确性、更多真实场景验证。

• 期待DeepSeek团队带来更多兼顾性能和效率的优秀模型。