欧洲版OpenAI CEO称DeepSeek-V3基于其架构构建引争议

2026-01-26 15:33:38 三言科技科技

在最近一次访谈中，欧洲版OpenAI的联合创始人兼CEOArthurMensch表示DeepSeek-V3是在Mistral提出的架构上构建的，此言论在网络上引发了广泛争议。网友们对这一说法表示质疑，认为其中存在诸多不合理之处。

ArthurMensch提到，Mistral是最早发布开源模型的公司之一，而中国开源AI的强势发展让他们看到了开源策略的优势。他强调，开源不是真正的竞争，大家在彼此的基础上不断进步。他举例说，Mistral在2024年初发布了首个稀疏混合专家模型（MoE），DeepSeek-V3及之后版本都基于此架构构建，且Mistral公开了重建这种架构所需的一切。

然而，网友们指出，DeepSeekMoE论文的发布时间与Mistral论文相差仅3天，且两者架构思路并不相同。此前，Mistral3Large还曾被指出基本照搬了DeepSeek-V3的架构。从数学公式来看，两者虽都采用GShard风格的Top-Krouter，但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面，Mixtral沿用标准MoE设计，DeepSeek则提出细粒度专家分割，使专家组合更灵活。在路由机制上，Mixtral中专家地位平等，DeepSeek引入共享专家，实现知识分布的解耦。

此外，有网友提到，Mixtral的论文并未提及训练细节，仅提到采用GoogleGShard架构和简单的路由机制。而2025年12月发布的Mistral3Large被发现直接沿用了DeepSeek-V3的架构。网友们认为，Mistral试图通过岁月史书来挽回面子，但DeepSeek在稀疏MoE、MLA等技术上获得了更大影响力。有网友调侃，现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral。

阅读：90 点赞：0