Deepseek 是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这意味着他要进步只能等着别人进步。这也是为什么 DS 的训练成本如此之低的原因,他本质上不是0号始祖模型。传说 OpenAi、Claude*和谷歌手里都有一个秘密的超级能力的0号始祖模型不放出来,我们现在能用到的这些什么40、sonnet*和 gemini,都是他们手里的那个秘密的0号始祖模型蒸馏出来的。 当然,Deepseek 非常厚道,他们的模型是MIT 条款的,意味着可以随意商用,打掉世界大模型的价格,功不可没。
DS最主要的就是算法蒸馏,而不是数据蒸馏,这点同硅谷的其他AI公司依赖数据蒸馏来提升性能的思路差别很大。首先,DS建立了一个大模型所需要的算法集合框架,将各阶段可能选用的算法整理出来,通过GPT之类的大模型对大量算法研究论文进行阅读和辅助分析,寻找满足最低资源开销和最佳运营效率的已知算法,然后,通过分析算法找到关键点从而通过拼凑各种算法闪光点的方式建立自己的算法,然后通过试错运行对算法进行打磨,最终构建出符合自己需要的算法,然后,在大模型的整个框架内每个算法都如此,逐步建立了DS,在这个过程中,构建整个模型结构框架的人是核心,但是,利用其他大模型辅助分析和比较现有算法和进行算法关键点分析也是一个创举,节约了大量人力资源和时间,至于最后的数据蒸馏,那只是算法蒸馏过程留下的痕迹。
解构剖析
deepseek的亮点在于显存需求的降低,不懂别乱说
银砖
做一个不太恰当的比方,网上有许多软件是免费的。还有许多是盗版的。但是真正的正版软件是很贵的。
三生石
到现在也没拿出证据啊,只是猜测
ffgg
小编理解有误,现代ai可以从自己产生的数据训练自己了,只有Ai圣母李XX从别人模型中提取数,李教母长达十年从事Ai教学和推广,从末主持过一项最新Ai研究,用几天就剽窃了别人的成就。
真实世界研究
确实是从gpt蒸馏出来的。但是从R1开始就开始自动推理生成新数据了, 也就意味着未来不必再这么依赖gpt了, 可以自己进化
棒棒哒 回复 03-25 14:48
智障,我就是不懂,才叫你去打脸啊。发癫
阴阳怪气侠 回复 04-08 12:15
自己进化需要硬件,你硬件哪里来?
Thinksoso
一个蒸馏出来的ai小编。。。
娇子牌香烟
一个不聪明的人指责比他聪明的人说道:你蒸馏了我的智慧?
全球通
deep seek 和 manus一样,都是基于阿里大模型。
月淡风清
你懂个。。
istand
还特马有一个零号始祖模型不拿出来。。。不懂装懂,文科生写的技术马屁文。零号始祖模型来自转包给非洲大妈做的标注数据集。
istand 回复 03-30 14:53
看了这个号发的其它帖子,才知道这就是犹太资本给钱的认知战账号。
用户57xxx29
蒸馏怎么了,爱因斯坦,杨振宁不一样也得有老师教吗,找个名师有啥见不得人的,非得从原始人作起?是不是智商有问题!!
Blue
这么说吧:站在巨人的肩膀上
用户69xxx55
这怎么能告诉人家了。这么有效的思路。
天高云淡
随他去吧 如果七千年另一种物体将把王国建立 我们也没什么好奇怪的 人生太累 再不来了!
胎不梭舅子爷
不懂装懂, deepseek的成功是超越时代的革命
银砖
没有数据。你蒸了半天就像是真空气一样,只蒸笼屉是算法。蒸东西才是数据。里边儿没有馒头,没有包子,你蒸个屁呀。
用户74xxx91
0号是地基,这种叫挖地基寄生算法,地基挖倒了,整座高楼也就倒了。
用户39xxx92
现在哪个东西不是在前人基础上发展起来的?
英雄有梦
gpt都没开源,蒸个毛?几百万亿数据
平常心
打不赢就各种阴阳怪气
瘸腿泰迪
有啥奇怪的,我也干过类似的事情[滑稽笑]