游戏百科

欧洲版OpenAI CEO称DeepSeek-V3基于其架构构建引争议

在最近一次访谈中,欧洲版OpenAI的联合创始人兼CEOArthurMensch表示DeepSeek-V3是在Mistral提出的架构上构建的,此言论在网络上引发了广泛争议。网友们对这一说法表示质疑,认为其中存在诸多不合理之处。

ArthurMensch提到,Mistral是最早发布开源模型的公司之一,而中国开源AI的强势发展让他们看到了开源策略的优势。他强调,开源不是真正的竞争,大家在彼此的基础上不断进步。他举例说,Mistral在2024年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3及之后版本都基于此架构构建,且Mistral公开了重建这种架构所需的一切。

然而,网友们指出,DeepSeekMoE论文的发布时间与Mistral论文相差仅3天,且两者架构思路并不相同。此前,Mistral3Large还曾被指出基本照搬了DeepSeek-V3的架构。从数学公式来看,两者虽都采用GShard风格的Top-Krouter,但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面,Mixtral沿用标准MoE设计,DeepSeek则提出细粒度专家分割,使专家组合更灵活。在路由机制上,Mixtral中专家地位平等,DeepSeek引入共享专家,实现知识分布的解耦。

此外,有网友提到,Mixtral的论文并未提及训练细节,仅提到采用GoogleGShard架构和简单的路由机制。而2025年12月发布的Mistral3Large被发现直接沿用了DeepSeek-V3的架构。网友们认为,Mistral试图通过岁月史书来挽回面子,但DeepSeek在稀疏MoE、MLA等技术上获得了更大影响力。有网友调侃,现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral。