
今日,月之暗面正式推出 Kimi K2 Thinking——Kimi 史上最强大的开源推理模型。K2 Thinking 基于「模型即智能体」理念打造,天生具备「一边思考、一边调用工具」的协同本领。它在 Humanity's Last Exam、BrowseComp、SEAL-0 等权威评测中刷新 SOTA,并在智能搜索、智能编程、写作与综合推理等场景实现全面跃升。

Kimi K2 Thinking 无需人类干预,就能自主完成 300 轮工具调用,并维持持久、稳定的多轮思考,替用户啃下更艰深的难题。这是我们在 Test-Time Scaling 上的最新突破:同步放大思考 Token 与工具轮次,让 Agent 与推理双双升级。Kimi K2 Thinking 已登陆 kimi.com 及最新手机版常规对话。Kimi Agent 模式的底层也将换装 K2 Thinking,带来完整的链式思考与工具循环。
推理性能全面提升
Kimi K2 Thinking 于人类最后的考试(Humanity's Last Exam) 尽显推理与解题锋芒。该测试为横跨百余专业的终极封闭式学术考场。在均可调用搜索、Python、网页浏览工具的公平条件下,Kimi K2 Thinking 在此基准中斩下 44.9% 的 SOTA 分数。


Agentic 编程能力持续精进
Kimi K2 Thinking 的编程实力同步升级,在 SWE-Multilingual、SWE-bench 验证集与 Terminal 操作等多语言软件工程基准中再攀新高。我们注意到,它在 HTML、React 及组件密集的前端任务上提速显著,可把创意瞬间变成完备、响应式的产品。置于 Agentic Coding 场景,Kimi K2 Thinking 边调用工具边思考,自如嵌入 software agents,驾驭更繁复、多阶的开发工作流。
通用基础能力升级
创意写作:Kimi K2 Thinking 大幅跃升写作水准,可把零星灵感锻造成澄澈、动人且意图鲜明的篇章,兼具节奏与深意;它游刃于微妙文风与朦胧结构,在长篇里仍守得住格调统一。其笔下意象跃动,情感共振更强,把精准叙事与丰盈表现融为一炉。
学术与研究:在学术与专业场域,Kimi K2 Thinking 于剖析深度、信息精准与逻辑骨架上全面精进;它能条分缕析繁复指令,并以澄澈严谨之笔拓展思脉,因此尤擅学术论文、技术摘要及对信息完整与推理质量苛求万分的冗长报告。
个人与情感:面对私人或情感提问,Kimi K2 Thinking 的回响更富共情,立场亦趋中正温和;其思索绵密而具体,能给出纤毫入微的洞见与可立即落地的后续指引。它体贴且清晰地协助用户梳理纠结抉择,语气踏实又恳切,人情味更浓。
原生 INT4 量化提升推理效率
低比特量化是削减大规模推理服务器延迟与显存占用的利器。实测显示,因思考模型输出解码链极长,常规量化常令性能跳水。为破局,我们在后训练阶段引入量化感知训练,并对 MoE 模块施以 INT4 纯权重压缩。
由此,Kimi K2 Thinking 在复杂推理与 Agentic 场景中原生支持 INT4 推理,生成提速约两倍。INT4 对硬件兼容性更佳,对国产加速芯亦更友好。值得一提的是,我们所有基准成绩皆在 INT4 精度下达成。