游戏百科

DeepSeek在今天元旦发布了新论文,提出创新架构mHC,对市场有什么影响?先

DeepSeek在今天元旦发布了新论文,提出创新架构mHC,对市场有什么影响?先说我的观点:AI应用的正向催化。mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)的技术突破在哪里?简单来说,它让模型在拥有极深、极其复杂的连接网络时,还能像简单的线性网络一样易于收敛。这解决了大规模模型在训练初期容易崩盘的问题。mHC对训练成本有什么影响?mHC的引入并不是为了直接减少单次计算的FLOPs,而是通过提高训练效率和成功率来隐性降低成本。大模型训练最怕中途报错,mHC显著增强了架构的鲁棒性,减少了因训练不稳定导致的成本。另外,mHC使得模型可以向更深、更宽的方向扩展,而不会触发指数级增长的优化难度。这意味着可以用同样的算力预算,训练出更深、逻辑能力更强的模型。另外,论文提到mHC结合了基础设施的协同优化,降低了传统超连接带来的额外内存负担,从而提升GPU显存的利用率。市场将如何演绎?去年DeepSeek V3发布时,市场的反应确实经历了一个“先极其恐慌、后集体反思、最后拥抱杰文斯悖论”的完整周期。在DeepSeek V3展示出极高性价比,紧接着 R1 以平民价格对标OpenAI o1后,市场在2025年1月27日迎来了著名的DeepSeek时刻,投资者当时最朴素的认知是:“如果DeepSeek只要2000张卡就能训出万卡集群的效果,那剩下的8000张卡卖给谁?”恐慌之后,关键的转折点在于Satya Nadella等大佬公开引用了Jevons悖论,随后市场进入新的共识:算法效率每提升1倍,人类就会追求比现在强n倍的模型,而不满足于现状。所以今年下半年开始,市场已经对这类算法突破产生免疫,甚至形成了正向预期,效率就是需求:只要发布更高效的架构(比如这次的mHC),市场的反应可能不是上游完了,而是AI应用的爆发要加速了。财经