梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，而是他们居然又开发了新的模

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，而是他们居然又开发了新的模型！正当 R1 模型带来的行业震荡仍在持续发酵时，DeepSeek 毫无征兆地扔下了一枚 “深水炸弹”——备受关注的 MODEL1 项目源代码，意外出现在了 GitHub 平台上，这一出人意料的曝光瞬间。恰逢 R1 问世一周年，当竞争对手忙于举办庆典、发布通稿时，梁文锋却选择低调增补 64 页技术报告，公开完整训练路径与安全机制，以开源姿态向硅谷巨头叫板。 MODEL1 的浮出水面，正是这一战略的自然延伸。 2026年1 月 21 日，海外开发者在 DeepSeek 的 GitHub 代码库中发现 31 处 “MODEL1” 踪迹。尽管官方未作回应，这个神秘新模型已引发技术圈震动 —— 梁文锋摒弃预热宣传套路，径直用代码证明实力。从泄露的信息看，这款模型的设计很聪明：它没有沿用 V3 的 576 维结构，而是用回更成熟的 512 维，并加入了动态 Top-K 稀疏推理。就像给 AI 装了一个 “智能省电模式”，普通聊天时减少算力消耗，遇到难题时瞬间拉满性能，既省又强。过去三年，全球 AI 深陷 “参数军备竞赛”，百亿级参数狂飙至万亿级，训练开销动辄数亿美元。 Meta 训练 Llama 调用数万张顶级 GPU，Google Gemini 单次训练耗资 10 亿美元，中小企业要么支付高昂 API 费用，要么承担天价算力成本。而梁文锋走出差异化路线：DeepSeek V2 模型推理成本压至每百万 token1 元，仅为 GPT-4Turbo 的七十分之一；V3 训练成本 4000 万元，不足 GPT-4o 的二十分之一。这种 “效率至上” 策略，让烧钱成瘾的硅谷巨头倍感压力。 MODEL1 的技术突破更具里程碑意义：针对新型硬件架构适配，创新 KV 缓存布局，实现系统提示词与用户对话物理分离存储，如同植入 “长期记忆芯片”，大幅提升智能客服、多轮对话场景响应速率，为手机及边缘设备部署大模型扫清障碍。梁文锋之所以能拥有十足底气，并非凭空而来，而是得益于他长年累月的深厚积累。这位浙大电子信息专业出身的极客，2008 年投身 AI 量化交易，2015 年创办幻方量化，凭借 AI 高频策略崛起，2021 年资产管理规模破千亿。更关键的是，幻方豪掷 12 亿元研发 “萤火一号”“萤火二号” AI 超级计算机，既打破自身算力天花板，也为 DeepSeek 大模型研发筑牢根基。相较于行业内不少厂商 “开源口号化”“商用条款受限”，DeepSeek 毫无保留公开核心技术，更保持惊人团队稳定性：R1 项目 18 位核心贡献者全员留任，100 多位作者中仅 6 人离职。这种凝聚力支撑团队深耕长期研发，而硅谷已然显露疲态 ——Meta 正收缩开源战线，考虑放弃最强开源模型转向闭源，为中国开源模型弯道超车腾出空间。中国开源 AI 的崛起不再是口号，而是被数据刻下的事实：2025 年数据显示，仅用 18 个月，其全球开发者生态规模便激增 370%。 Qwen、DeepSeek 等模型在 HuggingFace 平台下载量屡破纪录，用户覆盖 192 个国家和地区，北美、欧洲开发者也纷纷转向中国模型。梁文锋曾直言，中国 AI 不能止步于 “模仿跟随”，原创架构创新才是破局关键，MODEL1 正是这一理念的践行。综合多方情报分析，MODEL1 战略重心已从 C 端全面转向 B 端垂直场景，通过提供高性价比的 AI 推理解决方案，助力中小企业打破国外巨头的技术垄断。外媒爆料称，DeepSeek 计划于 2 月中旬正式发布该模型。据内部测试数据显示，其编码能力表现惊人，有望全面超越 Anthropic Claude 及 OpenAI GPT 系列。梁文锋与 DeepSeek 的异军突起，象征着中国科技在关键领域的突围与反击。没有铺天盖地的营销，没有复杂的资本运作，仅凭实打实的技术创新，在核心技术封锁下，靠系统极致优化与生态共建，于全球 AI 竞技场占据一席之地。 MODEL1 的亮相绝非终点，而是开源 AI 天平向东方倾斜的明确信号，未来两个月，全球开源市场或将掀起新的风浪。对开发者而言，这意味着更强劲、经济的技术底座；对中小企业而言，是摆脱技术垄断的曙光；对中国 AI 产业而言，更是从 “跟跑” 向 “引领” 跨越的关键一步。梁文锋用实力回击唱衰论调，MODEL1 能否成为国产 AI 的又一张王炸？这般成果，着实叫人满怀期待。信源：澎湃新闻——DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

游戏百科

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，而是他们居然又开发了新的模

热门分类