小米开源了首个推理模型MiMo,主打一个“小而强”。 打开论文,右上角就是一个大

量子位来谈科技 2025-05-14 18:13:17

小米开源了首个推理模型MiMo,主打一个“小而强”。 打开论文,右上角就是一个大大的小米Logo,论文署名则是“小米LLM核心团队“。【图1】 MiMo-7B全系列包含4个模型版本: MiMo-7B-Base:基础预训练模型,训练数据规模达25万亿tokens,强调“推理密度”,并引入MTP(Multi-Token Prediction,多token预测)机制,显著提升生成速度和质量; MiMo-7B-SFT:在Base模型上进行监督微调(Supervised Fine-Tuning),作为强化学习(RL)的热启动版本; MiMo-7B-RL-Zero:直接从Base模型进行冷启动的强化学习训练; MiMo-7B-RL:在SFT模型基础上热启动再强化,当前为性能最强版本 按理说,推理任务往往得靠大参数模型来扛,但MiMo仅7B的体量,就超越了多个大模型: 在AIME 2025数学测试中,MiMo-7B-RL取得55.4分,高于OpenAI的o1-mini(50.7)与阿里巴巴的Qwen-32B(32.4); 在代码测试基准LiveCodeBench v5中,MiMo-7B通过率达57.8%,领先于o1-mini(53.8)和Qwen-32B(41.9); 在32K长上下文的逻辑追踪和推理任务中,MiMo也进入了领先梯队。 这不是单纯“微调”出来的结果,拆解来看,MiMo的能力进步主要靠两个阶段的创新联动: 1、预训练阶段,打下推理的底子: 数据不仅量大(25T tokens),还特别聚焦推理密度,自主生成了约2000亿条推理相关语料; 采用“三阶段训练法”,逐层提升难度,让模型逐步掌握复杂推理结构; 引入MTP机制,提前预判生成路径,提升推理效率与准确率。 2、后训练阶段,用RL强化逻辑能力: 提出“Test Difficulty Driven Reward”(按题目难度打分)机制,有效缓解代码任务中reward稀疏问题; 引入Easy Data Re-Sampling策略,提高训练样本利用效率; 搭建Seamless Rollout引擎,实现训练过程全异步处理,训练提速2.29倍,验证阶段提速1.96倍。 目前,小米已在GitHub、HuggingFace、ModelScope三个平台全面开源MiMo全系列模型,包括Base、SFT及两种RL版本,相关代码与训练方案也已全部公开。 感兴趣的小伙伴可以点击: 论文:

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注