【DeepSeek发布新模型V3.2-Exp:基于DSA稀疏注意力机制的长上

春蕴评趣事 2025-10-01 22:13:03

【DeepSeek 发布新模型 V3.2-Exp:基于DSA稀疏注意力机制的长上下文优化】

• 【模型概述】:

• DeepSeek 团队推出最新模型【DeepSeekV3.2-Exp】,在之前 DeepSeekV3.1-Terminus 基础上通过持续训练集成全新【稀疏注意力机制 (DSA)】。

• DSA与【高效闪电索引器】结合,在训练和推理环节显著提升效率,尤其在处理【长上下文场景】时优势明显。

• V3.2-Exp 是一款【实验性】的稀疏注意力模型。

• 【架构部分】:

• 【唯一修改】:通过持续训练引入DSA。

• 【DSA构成】:

• 【闪电索引器 (Lightning Indexer)】:

• 核心作用:计算查询 (query) 和前面某个 token 之间的【索引分数 (LTS)】。

• 决定:根据分数选择哪些 token 进行后续注意力计算。

• 计算效率:采用【GELU函数】作为激活函数,吞吐量高,且索引器头 (indexer heads) 较少,可用【P8精度】实现,计算效率突出。

• 目的:避免引入新组件导致计算成本大幅增加。

• 【细粒度Token选择机制 (Fine-grained Token Selection)】:

• 对于每个查询,根据索引分数【只筛选出排名在前K位】的token(对应的键值对)。

• 注意力输出计算:查询和筛选后的关键token(CS)进行注意力机制运算。

• 效果:模型无需对所有token都进行注意力计算,只针对筛选后的关键token处理,【大幅降低计算量】。

• 【MLA架构集成】:

• DSA并非孤立存在,基于DeepSeek在2024年提出的【MLA (Multi-Layer Attention) 架构】实例化而来。

• 目的:保证训练的连贯性和兼容性。

• MQA模式 (Multi-Query Attention):为提升计算效率,每个键值对必须在【多个查询之间共享】。DeepSeek选择在MLA的MQA模式上实现DSA。

• Transformer作者之一诺姆·莎尔于2019年提出。

• 每个潜在向量在查询token的所有查询头之间共享,满足键值对共享需求,进一步提升计算效率。

• 【开源实现】:提供了DeepSeekV3.2-Exp的开源实现,方便深入研究代码逻辑。

• 【训练流程】:

• 【基础】:从DeepSeekV3.1-Terminus的【基础检查点】开始,上下文长度已扩展到【128K】。

• 【两大阶段】:

• 【持续预训练阶段 (Continuous Pre-training)】:

• 使用与V3.1-Terminus相同的【128K上下文扩展数据分布】,保证数据连贯性。

• 【密集预热阶段 (Dense Warm-up)】:

• 核心目标:【初始化闪电索引器】。

• 方式:模型保持【密集注意力计算】,未启用稀疏筛选。

• 参数冻结:除闪电索引器外,所有模型参数【冻结】。

• 目的:让索引器输出与主注意力分布一致,为稀疏训练铺垫。

• 对齐方式:将主注意力分数求和,沿序列维度进行【L1归一化】得到目标分布P,设置【KL散度损失】作为索引器训练目标。

• 参数:学习率【10^-3】,训练【1000步】,总计约【2.1B个Token】。

• 【稀疏训练阶段 (Sparse Training)】:

• 引入【细粒度Token选择机制】,模型开始适应DSA稀疏模式。

• 优化:【所有模型参数】进行优化更新。

• 对齐:保持索引器输出和主注意力分布对齐,但只考虑【筛选后的Token集合】。

• 技术细节:索引器输入从计算图中分离,独立优化。索引器训练信号来自KL散度损失,主模型优化依赖语言模型损失,两者独立互不干扰。

• 参数:学习率【7.3 × 10^-6】,每个查询token选择【2048个】键值对token,训练【15000步】,总计约【943.7B个Token】。

• 【后训练阶段 (Post-training)】:

• 目标:打造最终的DeepSeekV3.2-Exp模型。

• 方式:仍采用与稀疏持续预训练阶段相同的DSA稀疏注意力方式。

• 保持一致:与DeepSeekV3.1-Terminus相同的【后训练流水线、算法和数据】,以便准确判断DSA影响。

• 【核心环节】:

• 【专家蒸馏 (Expert Distillation)】:

• 思路:针对每个任务或领域开发【专门的专家模型】。

• 领域:包括写作、通用问答、数学、编程竞赛、通用逻辑推理、智能体编程、智能体搜索。

• 训练:投入大规模【强化学习】计算资源。

• 数据:使用不同模型生成两种类型训练数据:【思考模式】(用于链式推理)和【非思考模式】(用于直接响应生成)。

• 效果:蒸馏后模型性能略低于专家模型,但后续RL训练可消除差距,使V3.2-Exp在多领域同时具备【接近专家模型的能力】,提升通用性和效率。

• 【混合训练 (Mixed Training)】:

• 算法:仍采用【分组相对策略优化 (GRPO)】作为RL训练算法。

• 改进:将推理训练、智能体训练、人类对齐训练这三个原本分开的阶段【合并为单个RL阶段】。

• 好处:

• 实现【更好的性能平衡】,避免性能过强或过弱。

• 规避【灾难性遗忘】问题(学习新知识时忘记旧知识)。

• 【奖励设计】:

• 推理和智能体任务:【基于规则的结果奖励】(是否正确)、【长度惩罚】(避免过长无意义内容)、【语言一致性奖励】。

• 通用任务:【生成式奖励模型】,为每个提示词设置专门评估标准,评估更灵活细致。

• 【平衡考量】:平衡【长度与准确性】(避免过长或过短而牺牲准确性)和【语言一致性与准确性】。

• 【评估结果】:

• 【评估维度】:模型能力、推理成本、未来真实场景验证计划。

• 【模型能力评估】:

• 基准测试:与DeepSeekV3.1-Terminus全面对比。

• 结果:V3.2-Exp在长序列处理计算效率显著提升,但在短上下文和长上下文任务中【没有明显性能下降】,兼顾了效率和性能。

• 个别测试略低:在GPQA Diamond (Pass(Pass和 HMMT2023 (Pass中表现略低。

• 原因:V3.2-Exp生成的推理token数量更少。

• 结论:性能差距与【模型生成内容长度】相关,而非DSA机制本身。调整生成数量后可达到相当性能。

• RL训练曲线:两款模型在BOSC和SWE Verified任务上的准确率同步稳步提升,输出token数量变化趋势相似,说明DSA机制【未影响训练稳定性】。

• 【推理成本评估】:

• 【理论层面】:

• 传统密集注意力:计算复杂度【O(L^2)】(L为序列长度),长序列计算量平方级增长。

• DSA引入后:核心注意力计算复杂度降至【O(L*K)】(K为每查询键值对token数量,K远小于L),计算量增长速度变为【线性级】,大幅降低成本。

• 闪电索引器:计算复杂度仍为O(L^2),但由于索引器头少、可用P8精度实现,实际计算成本非常低。

• 综合优化:DSA在长上下文场景实现【显著端到端加速】。

• 【实际服务部署】:在【H800 GPU群】上部署测试。

• 成本对比:DeepSeekV3.2-Exp每百万token成本始终低于DeepSeekV3.1-Terminus。

• 优势:在【128K长上下文】场景下成本优势更明显。

• 优化:处理短序列预填充时,采用【掩码模式】模拟DSA效果,确保在短上下文下也有高效率。

• 【未来验证计划】:

• 严谨态度:内部评估前景乐观,但计划在【真实世界场景】中进行更大规模测试。

• 目的:实验室基准测试无法完全覆盖真实场景复杂情况,希望发现DSA架构潜在局限,进一步优化模型,在实际应用中表现更稳定出色。

• 【总结与展望】:

• DeepSeekV3.2-Exp通过引入DSA,成功在【长上下文处理效率】上实现突破,同时保持了与之前版本相当的【性能水平】。

• 为长上下文AI任务提供【更高效、更经济】的选择。

• 架构设计、训练过程的严谨性和评估阶段的全面性体现了DeepSeek团队的专业能力。

• 作为实验性模型,未来仍有【很大优化空间】,如提升筛选准确性、更多真实场景验证。

• 期待DeepSeek团队带来更多兼顾性能和效率的优秀模型。

0 阅读:0
春蕴评趣事

春蕴评趣事

感谢大家的关注