Kimi K2 Thinking 模型开源登场，推理与 Agent 能力双跃升

今日，月之暗面正式推出 Kimi K2 Thinking——Kimi 史上最强大的开源推理模型。K2 Thinking 基于「模型即智能体」理念打造，天生具备「一边思考、一边调用工具」的协同本领。它在 Humanity's Last Exam、BrowseComp、SEAL-0 等权威评测中刷新 SOTA，并在智能搜索、智能编程、写作与综合推理等场景实现全面跃升。

Kimi K2 Thinking 无需人类干预，就能自主完成 300 轮工具调用，并维持持久、稳定的多轮思考，替用户啃下更艰深的难题。这是我们在 Test-Time Scaling 上的最新突破：同步放大思考 Token 与工具轮次，让 Agent 与推理双双升级。Kimi K2 Thinking 已登陆 kimi.com 及最新手机版常规对话。Kimi Agent 模式的底层也将换装 K2 Thinking，带来完整的链式思考与工具循环。

推理性能全面提升

Kimi K2 Thinking 于人类最后的考试（Humanity's Last Exam）尽显推理与解题锋芒。该测试为横跨百余专业的终极封闭式学术考场。在均可调用搜索、Python、网页浏览工具的公平条件下，Kimi K2 Thinking 在此基准中斩下 44.9% 的 SOTA 分数。

面对繁复检索与网页穿梭，Kimi K2 Thinking 同样交出亮眼答卷。OpenAI 推出的 BrowseComp 基准，专为评估 AI Agent 的浏览耐力而设，考验信息洪流中能否像学者般「刨根问底」。此关卡人类均值仅 29.2%，而 Kimi K2 Thinking 以 60.2% 的执着探研刷新 SOTA，登顶最难浏览测试榜。

凭借长程规划与自主检索，Kimi K2 Thinking 可驱动上百轮“思考→搜索→浏览→再思→编程”的滚动闭环，不断修正假设、核验证据、推导演绎，最终拼出逻辑自洽的解答。这种边搜边思的主动能力，让它把宽泛开放的大题拆成清晰可攻的子任务。

Agentic 编程能力持续精进

Kimi K2 Thinking 的编程实力同步升级，在 SWE-Multilingual、SWE-bench 验证集与 Terminal 操作等多语言软件工程基准中再攀新高。我们注意到，它在 HTML、React 及组件密集的前端任务上提速显著，可把创意瞬间变成完备、响应式的产品。置于 Agentic Coding 场景，Kimi K2 Thinking 边调用工具边思考，自如嵌入 software agents，驾驭更繁复、多阶的开发工作流。

通用基础能力升级

创意写作：Kimi K2 Thinking 大幅跃升写作水准，可把零星灵感锻造成澄澈、动人且意图鲜明的篇章，兼具节奏与深意；它游刃于微妙文风与朦胧结构，在长篇里仍守得住格调统一。其笔下意象跃动，情感共振更强，把精准叙事与丰盈表现融为一炉。

学术与研究：在学术与专业场域，Kimi K2 Thinking 于剖析深度、信息精准与逻辑骨架上全面精进；它能条分缕析繁复指令，并以澄澈严谨之笔拓展思脉，因此尤擅学术论文、技术摘要及对信息完整与推理质量苛求万分的冗长报告。

个人与情感：面对私人或情感提问，Kimi K2 Thinking 的回响更富共情，立场亦趋中正温和；其思索绵密而具体，能给出纤毫入微的洞见与可立即落地的后续指引。它体贴且清晰地协助用户梳理纠结抉择，语气踏实又恳切，人情味更浓。

原生 INT4 量化提升推理效率

低比特量化是削减大规模推理服务器延迟与显存占用的利器。实测显示，因思考模型输出解码链极长，常规量化常令性能跳水。为破局，我们在后训练阶段引入量化感知训练，并对 MoE 模块施以 INT4 纯权重压缩。

由此，Kimi K2 Thinking 在复杂推理与 Agentic 场景中原生支持 INT4 推理，生成提速约两倍。INT4 对硬件兼容性更佳，对国产加速芯亦更友好。值得一提的是，我们所有基准成绩皆在 INT4 精度下达成。

游戏百科

Kimi K2 Thinking 模型开源登场，推理与 Agent 能力双跃升

热门分类

Kimi K2 Thinking 模型开源登场，推理与 Agent 能力双跃升

猜你喜欢

我一直在思考，小鹏理想的VLA，和蔚来华为的世界模型，哪个才是自动驾驶的未来？

小鹏机器人刚亮相的时候真的是铺天盖地的质疑，说这就是一个真人裹了一层衣服。而且都

11月5日小鹏科技日上，新一代人形机器人IRON闪亮登场。这可是最拟人的机器人，

小鹏全新IRON人形机器人，以第二代VLA大模型与82个高自由度关节为核心，重构

DeepSeek的推理又提速了，这次的关键不是算力堆上去，而是算法更聪明了。百度

2025小鹏科技日不但内容丰富，更是相当硬核。哪里看不懂？不要紧，这篇文章为大家

何小鹏这波“脱衣验身”操作，堪称科技圈最硬核危机公关！自家机器人IRON就因为走

热门分类