【国盛计算机】Deepseek发布Prover-V2-671B,推理能力进一步加

丹萱谈生活文化 2025-05-01 14:09:17

【国盛计算机】Deepseek发布Prover-V2-671B,推理能力进一步加强利好算力及AI agent 根据新浪新闻报道,DeepSeek于4月30日在AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。DeepSeek-Prover-V2-671B 支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。 Prover系列模型为数学定理证明模型,采用强化学习增强推理能力。2024年8月,DeepSeek 开源 Prover-V1.5 版本,引入了类似 AlphaGo 的强化学习系统。仅 7B 参数规模的 Prover-V1.5,在高中(miniF2F)和大学(ProofNet)数学定理证明测试中分别达到了 63.5% 和 25.3% 的成功率,超越了多款开源模型(InternLM2-StepProver、Llemma)。现在,V2模型发布,参数规模打到671B,在数学定理方面的能力进一步增强。 我们认为,AI大模型推理能力的进一步增强,有利于AI应用的持续落地,可用场景进一步扩张。在此基础上,助力底层算力基础设施亦持续扩张。 建议关注:Agent、算力方向 风险提示:AI技术迭代不及预期风险;应用落地不及预期风险;宏观经济波动风险。

0 阅读:4