DeepSeek开年就搞大事情,1月1日发布了新论文《mHC:流形约束超连接》。这篇论文提出了全新的mHC架构,来解决传统超连接在大规模模型训练中的不稳定性问题。第一作者有解振达、韦毅轩、曹焕琪,创始人梁文锋也参与署名。 近年来,超连接虽拓展了残差连接范式提升了性能,但带来了训练不稳定、可扩展性受限和内存开销大等问题。而mHC架构就像给超连接的“信息通道”制定了“交通规则”,把残差连接空间投影到特定流形上,恢复恒等映射特性,兼顾了性能与效率,有望为下一代基础架构演进指明方向。不得不说,这开年第一炮很响啊!
