游戏百科

【Deepseek的新论文】事件:2026年1月DeepSeek发布《DeepS

【Deepseek的新论文】事件:2026年1月DeepSeek发布《DeepSeek mHC: Manifold - Constrained Hyper - Connections》(论文水印25-12-31),引发产业刷屏。1、 牛不牛?牛,架构层面的改良,海外讨论度高+风评好。何恺明resnet(残差训练)在2016年名声大噪(CVPR 2016 最佳论文),超连接HC(Hyper-Connection)加强残差。本篇mHC(Manifold-contrained HC)显著提升,解决训练扩展性、不稳定问题(典型值优化3个数量级)。有限硬件成本增加(典型增内存6.7%,一贯DeepSeek风格)2、大家关心的趋势和投资问题1)利好AI应用训练。特别适合残差高频领域,如图像视频和复杂特征逻辑推理(复杂难题)2)高普适性,尤其训练,尤其端侧。普适很多模型(论文里3B/9B/27B都有),低成本端侧训练/推理容易被显存占用问题缓解。此前残差训练容易梯度爆炸或内存等待3)内存/缓存/光器件/计算开销?不大的新增计算开销。论文里的n流残差流水线延迟,和Lr层mHC核心重计算,用流水线DualPipe 优化。论文典型值内存增加6.7%。新增缓存,如各阶段初始激活值Xlo本地缓存。但不大,因整计算丢弃核心中间激活值。光器件几无变化。光模块带宽与之前一致。减少存储io次数。大大提高训练稳定性,降低训练中断的重复IO。利好企业级ssd,减少高速ssd依赖。4)GPU利用率提升?GPU利用率大幅提高,典型值90%+。解决内存墙等待。本来残差计算不收敛,不稳定。论文提出,原HC虽然优化残差,但易导致信号 / 梯度失控,多流并行放大内存压力。mHC论文从Sinkhorn-Knopp算法开始优化。3、一贯的DeepSeek创新风格,努力优化一切AI Infra,存储、算力无需担心1)Transformer的基础架构并没有变化,没有提出新的模型范式。2)对Transformer中的重要组件(残差部分)进行了优化, 能够让模型的表达力更丰富, 并且能够使训练更加稳定。3)代价在HBM显存占用和带宽要求:读写对HBM显存占用和带宽要求更高 ,更依赖显存的优化,不然会存在memory wall。4)算力并没有通缩逻辑 ,靠infra把端到端开销压到6.7%:算力需求有提升但总体可控,算法更吃HBM带宽,但是DeepSeek再次发挥了自己infra的优势, 做了通信和计算的大量优化。 所以整体的开销算下来,且端到端的训练时间额外只增加了6.7%。4、资本市场整体影响1)这是更加学术性,实验性的论文,真正的影响可能在 DeepSeek v4 出来的时候才有。2)大家经过 deepseek1.0,已经能够理解,突破会带来更多的模型能力突破,带来更多的模型应用,而非“零和游戏”。5、有啥叙事性?1)deepseek 喜欢假期发布。坏习惯可能预示着...春节假期有什么发布也不足为奇。deepseek 的每一次论文发布,v4 就应该越近。2)这份 mHC 论文是建立在之前字节 HC 论文之上,做的一个实验性改良版。开源生态,导致了这个飞轮能够更快的转动。海外封闭模型,在路线技术上的改良,很难有这种“复利效应”;3)跑分是一回事,实验室能力是另一回事。deepseek 的论文继续给学术界带来新的观点,对于开源人才生态的影响也能有正向循环。