🐯DeepSeek周末热议,如何与豆包进行对比?
1️⃣DeepSeek属于大语言模型,而豆包属于多模态大模型, 因此在算力需求上本身不在同一数量级。
2️⃣deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上, 又花了大量算力去让他推理能力更强。 而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。 相当于DeepSeek做减法、豆包做加法。
结论: DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光