【DeepSeek 发布新模型 V3.2-Exp:基于DSA稀疏注意力机制的长上下文优化】
• 【模型概述】:
• DeepSeek 团队推出最新模型【DeepSeekV3.2-Exp】,在之前 DeepSeekV3.1-Terminus 基础上通过持续训练集成全新【稀疏注意力机制 (DSA)】。
• DSA与【高效闪电索引器】结合,在训练和推理环节显著提升效率,尤其在处理【长上下文场景】时优势明显。
• V3.2-Exp 是一款【实验性】的稀疏注意力模型。
• 【架构部分】:
• 【唯一修改】:通过持续训练引入DSA。
• 【DSA构成】:
• 【闪电索引器 (Lightning Indexer)】:
• 核心作用:计算查询 (query) 和前面某个 token 之间的【索引分数 (LTS)】。
• 决定:根据分数选择哪些 token 进行后续注意力计算。
• 计算效率:采用【GELU函数】作为激活函数,吞吐量高,且索引器头 (indexer heads) 较少,可用【P8精度】实现,计算效率突出。
• 目的:避免引入新组件导致计算成本大幅增加。
• 【细粒度Token选择机制 (Fine-grained Token Selection)】:
• 对于每个查询,根据索引分数【只筛选出排名在前K位】的token(对应的键值对)。
• 注意力输出计算:查询和筛选后的关键token(CS)进行注意力机制运算。
• 效果:模型无需对所有token都进行注意力计算,只针对筛选后的关键token处理,【大幅降低计算量】。
• 【MLA架构集成】:
• DSA并非孤立存在,基于DeepSeek在2024年提出的【MLA (Multi-Layer Attention) 架构】实例化而来。
• 目的:保证训练的连贯性和兼容性。
• MQA模式 (Multi-Query Attention):为提升计算效率,每个键值对必须在【多个查询之间共享】。DeepSeek选择在MLA的MQA模式上实现DSA。
• Transformer作者之一诺姆·莎尔于2019年提出。
• 每个潜在向量在查询token的所有查询头之间共享,满足键值对共享需求,进一步提升计算效率。
• 【开源实现】:提供了DeepSeekV3.2-Exp的开源实现,方便深入研究代码逻辑。
• 【训练流程】:
• 【基础】:从DeepSeekV3.1-Terminus的【基础检查点】开始,上下文长度已扩展到【128K】。
• 【两大阶段】:
• 【持续预训练阶段 (Continuous Pre-training)】:
• 使用与V3.1-Terminus相同的【128K上下文扩展数据分布】,保证数据连贯性。
• 【密集预热阶段 (Dense Warm-up)】:
• 核心目标:【初始化闪电索引器】。
• 方式:模型保持【密集注意力计算】,未启用稀疏筛选。
• 参数冻结:除闪电索引器外,所有模型参数【冻结】。
• 目的:让索引器输出与主注意力分布一致,为稀疏训练铺垫。
• 对齐方式:将主注意力分数求和,沿序列维度进行【L1归一化】得到目标分布P,设置【KL散度损失】作为索引器训练目标。
• 参数:学习率【10^-3】,训练【1000步】,总计约【2.1B个Token】。
• 【稀疏训练阶段 (Sparse Training)】:
• 引入【细粒度Token选择机制】,模型开始适应DSA稀疏模式。
• 优化:【所有模型参数】进行优化更新。
• 对齐:保持索引器输出和主注意力分布对齐,但只考虑【筛选后的Token集合】。
• 技术细节:索引器输入从计算图中分离,独立优化。索引器训练信号来自KL散度损失,主模型优化依赖语言模型损失,两者独立互不干扰。
• 参数:学习率【7.3 × 10^-6】,每个查询token选择【2048个】键值对token,训练【15000步】,总计约【943.7B个Token】。
• 【后训练阶段 (Post-training)】:
• 目标:打造最终的DeepSeekV3.2-Exp模型。
• 方式:仍采用与稀疏持续预训练阶段相同的DSA稀疏注意力方式。
• 保持一致:与DeepSeekV3.1-Terminus相同的【后训练流水线、算法和数据】,以便准确判断DSA影响。
• 【核心环节】:
• 【专家蒸馏 (Expert Distillation)】:
• 思路:针对每个任务或领域开发【专门的专家模型】。
• 领域:包括写作、通用问答、数学、编程竞赛、通用逻辑推理、智能体编程、智能体搜索。
• 训练:投入大规模【强化学习】计算资源。
• 数据:使用不同模型生成两种类型训练数据:【思考模式】(用于链式推理)和【非思考模式】(用于直接响应生成)。
• 效果:蒸馏后模型性能略低于专家模型,但后续RL训练可消除差距,使V3.2-Exp在多领域同时具备【接近专家模型的能力】,提升通用性和效率。
• 【混合训练 (Mixed Training)】:
• 算法:仍采用【分组相对策略优化 (GRPO)】作为RL训练算法。
• 改进:将推理训练、智能体训练、人类对齐训练这三个原本分开的阶段【合并为单个RL阶段】。
• 好处:
• 实现【更好的性能平衡】,避免性能过强或过弱。
• 规避【灾难性遗忘】问题(学习新知识时忘记旧知识)。
• 【奖励设计】:
• 推理和智能体任务:【基于规则的结果奖励】(是否正确)、【长度惩罚】(避免过长无意义内容)、【语言一致性奖励】。
• 通用任务:【生成式奖励模型】,为每个提示词设置专门评估标准,评估更灵活细致。
• 【平衡考量】:平衡【长度与准确性】(避免过长或过短而牺牲准确性)和【语言一致性与准确性】。
• 【评估结果】:
• 【评估维度】:模型能力、推理成本、未来真实场景验证计划。
• 【模型能力评估】:
• 基准测试:与DeepSeekV3.1-Terminus全面对比。
• 结果:V3.2-Exp在长序列处理计算效率显著提升,但在短上下文和长上下文任务中【没有明显性能下降】,兼顾了效率和性能。
• 个别测试略低:在GPQA Diamond (Pass(Pass和 HMMT2023 (Pass中表现略低。
• 原因:V3.2-Exp生成的推理token数量更少。
• 结论:性能差距与【模型生成内容长度】相关,而非DSA机制本身。调整生成数量后可达到相当性能。
• RL训练曲线:两款模型在BOSC和SWE Verified任务上的准确率同步稳步提升,输出token数量变化趋势相似,说明DSA机制【未影响训练稳定性】。
• 【推理成本评估】:
• 【理论层面】:
• 传统密集注意力:计算复杂度【O(L^2)】(L为序列长度),长序列计算量平方级增长。
• DSA引入后:核心注意力计算复杂度降至【O(L*K)】(K为每查询键值对token数量,K远小于L),计算量增长速度变为【线性级】,大幅降低成本。
• 闪电索引器:计算复杂度仍为O(L^2),但由于索引器头少、可用P8精度实现,实际计算成本非常低。
• 综合优化:DSA在长上下文场景实现【显著端到端加速】。
• 【实际服务部署】:在【H800 GPU群】上部署测试。
• 成本对比:DeepSeekV3.2-Exp每百万token成本始终低于DeepSeekV3.1-Terminus。
• 优势:在【128K长上下文】场景下成本优势更明显。
• 优化:处理短序列预填充时,采用【掩码模式】模拟DSA效果,确保在短上下文下也有高效率。
• 【未来验证计划】:
• 严谨态度:内部评估前景乐观,但计划在【真实世界场景】中进行更大规模测试。
• 目的:实验室基准测试无法完全覆盖真实场景复杂情况,希望发现DSA架构潜在局限,进一步优化模型,在实际应用中表现更稳定出色。
• 【总结与展望】:
• DeepSeekV3.2-Exp通过引入DSA,成功在【长上下文处理效率】上实现突破,同时保持了与之前版本相当的【性能水平】。
• 为长上下文AI任务提供【更高效、更经济】的选择。
• 架构设计、训练过程的严谨性和评估阶段的全面性体现了DeepSeek团队的专业能力。
• 作为实验性模型,未来仍有【很大优化空间】,如提升筛选准确性、更多真实场景验证。
• 期待DeepSeek团队带来更多兼顾性能和效率的优秀模型。