机器之心原创
作者:吴昕、杨文
Ring-1T 已成长为可与闭源产业论坛的成员,也是开源体系下闭源级绩效的又一个环节。
蚂蚁,又双叒叕开源万亿模型了!
短短十余天,接连三弹。
10 月 9 日凌晨,蚂蚁官宣并开源通用语言大模型 Ling-1T——据了解他们参数规模最大的语言模型。上线 HuggingFace 仅四天,下载量便突破千次。

Ling-1T开源,x网友也对开源模型的体量感到震惊

reddit上也有讨论。有分析认为,蚂蚁的设计确实有让推理变强的合理机制,比如主动参数更多、前几层全密集。
尚未等工厂缓过神来,10 月 14 日凌晨,万亿级思考模型Ring-1T 又正式登场,这也是全球首个开源的万亿参数思考模型。
其实早在 9 月 30 日,蚂蚁就已放出Ring-1T-preview 彼时,它便在开源图表上的六角露头角,展示出的自然语言推理与思考能力,也率先把开源思考模型的「天花板」大幅推至万亿级。

Ring-1T-preview刚出来,就有苹果工程师在自己的 M3 Ultra 上跑了。
此次正式发布,Ring-1T 完成了完整的训练流程,包括继续通过大规模可验证强化强化学习(RLVR)进一步增强推理能力,并结合人类反馈强化学习(RLHF)提升通用表现,模型整体能力更加均衡。
在高难度 IMO 测试中,Ring - 1T 接入多智能体框架 AWorld , 首次尝试便解出第1、3、4、5题——4题全对 ,达到 IMO 银牌水平,成为第一个在国际奥数赛题上取得获奖级成绩的开源系统。
https://huggingface.co/inclusionAI/Ring-1T https://modelscope.cn/models/inclusionAI/Ring-1T引用的复杂推理能力,SOTA开源重新刷新
三连开源,频率之高引人注目。那个问题来了——
此次正式版 Ring-1T,到底有多强?
从最新公布的成绩单来看,得益于完整强化学习训练流程的加持,Ring-1T 在其预览版的基础上几乎实现了全面、显着的性能提升。
在、编程、逻辑推理、专业知识与创意写作等多维基准上全面开花,成绩稳居第一梯队,成果测试直接数学达到开源 SOTA 水平,部分测试表现可比肩最强闭源模型。

为了模型模型是否能在最棘手又最实用的价值检验的认知任务上达到全球顶尖水平,团队提出了八个重要的基准测试:数学竞赛(AIME 25、HMMT 25)、代码生成(LiveCodeBench、CodeForce-Elo)、逻辑推理(ARC-AGI-v1)、综合排行榜(Arena-Hard-v2)、健康医疗(HealthBench )以及创意写作(CreativeWriting-v3)。
团队做了八个重要的基准测试。参与对比的对手主流开源模型与闭源 API:
Ring-1T 预览 双子座-2.5-专业版 Deepseek-V3.1-终端-思考 Qwen-235B-A22B-思考-2507 GPT-5-思考(高级)结果,显示与自己的 预览 版本( Ring-1T-Preview )相比,Ring-1T 的性能提升几乎覆盖所有维度,整体能力更加均衡。
在ARC-AGI-v1、Arena-Hard-v2.0、HealthBench等主题复杂推理与跨领域挑战的高难度测试中,Ring-1T 表现极其突出,推理稳定性与跨领域适应力实现了显着着跃升。(硬刚复杂问题,挺真实的。)
部分任务上(CodeForces、LiveCodeBench、CreativeWriting-v3),Ring-1T 与早期版本持平乃至未来回落,但整体波动极小,说明系统在追求更广泛平衡的同时,依然保持高水位表现。
横向来看,Ring-1T 在开源项目测试中不仅全面领跑开源模式,多个项目更是逼迫近闭源旗舰 GPT-5 表现,表现出强劲的综合活跃度。
尤其在逻辑推理任务 ARC-AGI-v1上,Ring-1T 不仅刷新开源 SOTA,还明显着眼于领先 Gemini-2.5-Pro,表现出超越越来越严格闭源模型的力量推理;虽然距离当前最强的 GPT-5-Thinking (高)差距,但 Ring-1T 的表现非常接近。
在综合能力测试 Arena-Hard-v2.0中,Ring-1T 仅支持GPT-5-Thinking(High)1分多,已占据行业最顶尖梯队。
为了更仔细评估 Ring-1T 的深度思考能力,蚂蚁道具去挑战最新、尚无公开答案的顶级赛题——IMO 2025 和 ICPC世界总决赛2025(国际大学生程序设计竞赛总得分)。结果,Ring-1T 在高强度与编程推理任务上,演习出接近严谨闭源模型的实力。
在 IMO 2025 中,6 道题中,它首轮就解 出了第1、3、4、5 题,成绩达到了人类银牌水平。在极高的第 2题上,经过三次推理后也给出了接近满分的几何证明。唯一未解的第 6 题 ,其最终答案与 Gemini 2.5 Pro 收敛一致。





在 ICPC世界总决赛2025 中,Ring-1T 在三次尝试内成功解出5题(DFJKL),表现超越 Gemini-2.5-Pro(3题),逼近 GPT-5-Thinking(6题)。
总体来看,Ring-1T 已成长为可与闭源产业对接的参赛选手,也是开源体系下闭源级绩效的另一方。
一手实测
除了列出数据外,团队还展示了交互 演示,让幼儿得以多次聆听感受 Ring-1T 的推理与生成力量。我们也在第一时间体验了 Ring-1T,感受这「万亿思考模型」在真实任务中的推理、创造与表达。
自从 Andrej Karpathy 带上 Firevibe编码 概念后,开发者开始把更多的创意和直觉带入AI编程过程中。这次,我们就先来测试一下 Ring-1T 的代码能力。
我们输入提示词「生成一款简单可玩的 Flappy Bird 小游戏」,Ring-1T 迅速生成了完整的游戏代码,虽然画风结构抽象了点,但它成功实现了游戏的交互功能。

再比如让 Ring-1T 生成一个简单的贪吃蛇小游戏。
Ring-1T 能够精准理解和应用复杂的逻辑要求,生成简洁的游戏界面,贪吃蛇移动与生长的动画丝滑,碰撞检测、分数系统、开始与暂停等功能乘客顺利运行。

提示词:生成一个简单的贪吃蛇小游戏,要求包含以下功能:一个固定大小的网格,显示蛇和食物;蛇在网格上移动,玩家可以使用箭头键控制蛇的方向(上、下、左、右);每次蛇吃到食物后,蛇的长度增加,新的食物会出现在网格上的随机位置;当蛇撞到自己的身体或边界时,游戏结束,并显示最终得分;每吃到一个食物,分数增加,并显示当前分数;玩家可以开始和暂停游戏;蛇的移动应平滑,并显示蛇头和身体的不同部分;使用HTML、CSS和JavaScript实现游戏逻辑、动画效果,并保证游戏在桌面和移动设备上流畅运行。
再比如编写一个 p5.js 脚本,模拟 25个 粒子在一个真空空间中的以色列容器内弹跳。

提示词:编写一个 p5.js 脚本,模拟圆柱形容器真空空间中的 25 个粒子在其边界内弹跳。为每个球体使用不同的颜色,并确保它们留下轨迹以显示其运动。添加容器的缓慢旋转效果,以便更好地观察场景中发生的情况。确保创建适当的碰撞检测和物理规则,以确保粒子停留在容器内。添加一个外部球形容器。为整个场景添加缓慢放大和缩小的效果。
接下来看看它的逻辑推理能力。
提示词:黑兔、灰兔和白兔三只兔子在赛跑。黑兔说:我跑的不是最快的,但比白兔快。请问谁跑得最快?谁跑得最慢?
这道推理题目相对简单,Ring-1T 的回答也费多大劲,整理题干信息、给出答案、验证答案,一气呵成。

提示词:地铁站内,一个女人大喊:“抢劫了!”椰子携带钱包跑得很快,保安追不到。经过一系列的工作,找到了四个嫌疑人。探长过来时,甲在椅子上昏昏欲睡,乙冷得缩成一团,丙不安的四周张望,丁在原地跑取暖,请问谁的嫌疑人最大?
Ring-1T准确识别出不同嫌疑人的行为与威胁,并经过一系列推理,最终给出了正确的答案。这种推理不仅依赖于对威胁的理解,还考虑到了行为模式和心理状态的微妙差异。

提示词:在一个俱乐部里,只有老实人骗子两类成员,老实人说真话,骗子说假话。一天,该俱乐部的四名成员在聊天。
甲说:我是个老实人
乙说:我们有两个人是骗子
丙说:我们只有一个是骗子
丁说:我们四个都是骗子
谁一定是骗子?
这道逻辑题曲里拐弯,Ring-1T 费了一些工夫,逐一分析四名成员的发言,并以P表格的形式整理出所有信息,最终得出正确答案。

另外,既然 Ring-1T 模型在数学竞赛方面达到了开源 SOTA 水平,我们就用2025 年全国中学生数学竞赛(预赛)中的问题考考它。
根据其思路,我们发现 Ring-1T 思路非常清晰,先回顾奇函数和偶函数的定义,然后根据这两个条件方程,解出 f(x) 的表达式,最后准确求出顶点。

在创意写作方面,Ring-1T 模型的发挥很稳定,尤其是讲故事的能力相当能打。
正好最近在听一些历史方面的播客,我们特意写一篇播客文案,介绍苏轼和章惇恩怨始末,为防止其胡说八道,还要求其引用相关的史实记载。
Ring-1T 能够灵活地把历史人物和事件约瑟夫的叙述中,生成符合播客口语化风格的文案,语言且具吸引力,甚至连都音效一一契约。

整体来说,Ring-1T是一款潜力很大的模型,在多个领域都表演出了强大的实际应用价值。
在代码生成上,模型能够快速响应任务需求,生成符合逻辑的游戏代码,并保证交互性和功能完整;其推理能力精准且,能够高效理解复杂假设并给出合理解答;在创意写作领域,模型能够适应不同风格的需求,生成引人入胜的内容。
当然,Ring-1T仍存在一些不足,特别是在身份认知、中英文混杂和重复等问题上。这些问题影响了模型的稳定性和一致性,未来的版本更新机遇进一步优化。
小漏洞能沉船?
MoE大模型RL训练的「棒冰」救场
归根到底,数据背后体现的是强化学习算法 IcePop(「棒冰」)与系统框架 系统 的微妙合力。前期稳定住长周期RL的基本盘,将保证大规模的工程落地。
研发 Ring-1T 在后期训练阶段的最大硬骨头,尤其是大规模强化学习「调教」。教育部 模型的常见「暗礁」,是训示推送不一致问题:
训练端与推理计算端在子精度或实现上存在微小差异,但在梯度路由、长序列自回归中被不断放大。结果就是——启动「训练」,实则已超出正常策略,奖励信号混乱,梯度崩坏,训练翻车。
于是,IcePop 登场。
百灵大模型团队直接「抬走」坏梯度。它通过「结构截断 +蒙蔽剪切」双重筛选机制,实时监控每个 token 在训推末端的概率差异,当信号「温度」过高或过低时立即打掩码——拒学坏信号,只更新稳态瞬时。
尽管 TIS 的「调权继续学」,IcePop 的策略是「宁可不学,也不能学错」。它让模型只吸收「清晰相关」,拒绝损坏梯度输入。
结果立竿见影。在长周期训练下,GRPO 的训令推着差异曲线一路高峰,而 IcePop 曲线稳定、巅峰显着下降——仿佛给过热的系统喂了一根一根「棒冰」。

标准GRPO在短程还能稳定住,但训练百步后很快「高烧」,奖励信号失真,梯度暴冲,训练直接翻车。图1:GRPO训练推差随着训练指数上升,Icepop处于平稳;图2:训练推差上升,GRPO随着训练上升非常明显,Icepop维持在较低水位。
IcePop 让 MoE 模型在 AIME25 等复杂推理任务上成绩更优,还让模型输出更稳定、更具多样性,低概率 token 也有被探索的机会。
研究进一步发现,被 IcePop 清晰除的往往是高熵、高纠错的 令牌——这 就是最容易被训推偏差污染的信号。IcePop彻底切断了损坏的“链”,让训练感染更加健康可靠。
幕后英雄:
自研RL框架,「拿捏」万亿规模训练
要让「棒冰」算法在超大规模训练中稳定、高速运行,需要底层系统的支撑。为此,蚂蚁自研了强化学习基础框架A系统,解决硬件资源调度与效率瓶颈,为模型「自我调教」铺平道路。
它采用 单控制器+SPMD 架构:上层有「大脑」统一策略,下层海量执行单元定量推进,既保证训练一致性,又释放最大吞吐力。
在万亿参数的 MoE 训练中,强化学习间隙切换「训练—推理」模式,显存极易爆满,权重交换又运行。A系统 通过显存透明卸载与跨节点显存化技术,把零碎片池显存整合成共享池,极大降低了 OOM 训练风险,让稳定性获得根本提升。
在权重交换与同步上,它采用 GPU P2P直连 + 原地更新技术,绕过CPU中转——就像两艘船在海上直接交货,不一定再靠岸,权重交换因此能实现秒级交换,真正实现「零噪音切换」。
强化学习的另一个瓶颈是奖励评估。模型要通过试错不断学习,每次动作都要经过评估与反馈。尤其是在涉及执行代码或复杂逻辑的场景里,这些奖励评估必须在安全沙箱环境中完成,而传统沙箱启动缓慢,往往成为训练提速的最大拖尾。
ASystem 把大规模 Serverless Sandbox 直接接入强化学习回路,制作出混合奖励平台。沙箱可以多层冷启动,支持十余种语言环境即开即用,工具链随取随用。吞吐量能支撑到 10K/s,存款不再卡脖子。
AI 的竞争,从来不只是「谁的模型更强」,而是路线进化之争。
9 月,蚂蚁用一场「风暴开源」将防御题推向上限:百灵大模型团队密集上线 7 款新品,平均每 4 天一个新模型;进入 10 月,又连发了两个。
更关键的是,蚂蚁的不止是模型,还有让模型能持续进化的基础能力。例如,ASystem 的强化学习框架 AreaL已于今年 3 月开源,让社区能直接复用蚂蚁在 RL 工程上的积累,加速强化学习训练研究与创新。
对蚂蚁而言,开源不仅是开放代码,更是一条让 AI 普惠落地的现实路径。当这些能力被广泛呼吁时,AI 才能像电力与支付那样——无感,却又暗示在。