Qwen团队郑楚杰对deepseek的技术哲学的一些思考。最后一句蛮燃的。“扩大

又仁看科技 2025-05-02 09:54:55

Qwen团队郑楚杰对deepseek的技术哲学的一些思考。最后一句蛮燃的。

扩大模型和计算规模能够带来更强的智能。DeepSeek 很可能是中国最坚定的“规模化”信奉者之一 —— 更重要的是,也是最有能力将此理念贯彻到底的公司之一。这是我最欣赏他们的一点。

成功实现规模化的本质在于不断清除前进道路上的障碍。例如:

✨密集架构的表征能力有限,这促使(业界)转向具有更陡峭 Scaling Law 斜率的 MoE 架构。

✨强化学习规模化需要更快的推理速度,这再次有利于 MoE 架构,因为它在大 Batch Size 下具有显著更高的吞吐量。

✨MTP(Masked Token Prediction,掩码词元预测)本身是比 NTP(Next Token Prediction,下一词元预测)更具挑战性的学习目标,需要更大的模型容量 —— 将参数规模扩展到 6000 亿(600B)甚至更高。

✨稳定的训练是规模化的基础,这启发了诸如负载均衡损失(load balancing loss)、共享专家(shared experts)等技术。

幸运的是,DeepSeek 源自幻方的背景确保了其拥有充足的算力资源和世界一流的基础设施工程能力,使其能够坚定不移地追求并执行其规模化战略。

当规模化遇到障碍时,怀疑论者会哀叹:“哦不,Scaling Law 失效了。” 而信奉者则会说:“让我们想办法让规模化更容易,然后继续朝着正确的方向扩大规模,” 并且他们始终践行着这一信念。

AI创造营AI生活指南

0 阅读:6
又仁看科技

又仁看科技

感谢大家的关注