海外三大模型重磅更新
[庆祝]OpenAI:OpenAI发布了两个开放权重语言模型gpt-oss-120b和gpt-oss-20b,系公司自2019年推出GPT-2以来首次发布开放权重模型,也是OpenAI与微软签署独家云服务协议六年来问世的首批此类模型。gpt-oss-120b和gpt-oss-20b被设计为低成本的GPT模型选项,开发者、研究人员和企业可以轻松运行和定制。gpt-oss-20b可在16GB内存的笔记本电脑上运行,gpt-oss-120b需要约80GB内存,两款模型均支持高级推理、工具使用和思维链处理。在性能评估方面,OpenAI披露,gpt-oss-120b在核心推理基准测试中接近OpenAI o4-mini的表现。较小的gpt-oss-20b模型在相同评估中达到或超过OpenAI o3-mini的性能。
[庆祝]谷歌:谷歌DeepMind推出名为Genie 3的“世界模型”,该模型能够让 AI 系统与逼真的现实世界模拟互动,被视为朝着通用人工智能(AGI)迈出的重要一步。Genie 3的核心能力包括模拟世界的物理特性,该模型具备对物理规律的深刻理解,能够逼真地模拟水流、光影变化以及复杂的环境互动。Genie 3在实时性能方面实现了突破,具备高度可控性和实时交互性,因此我们认为该模型将适用于训练机器人和自动驾驶车辆。
[庆祝]Anthropic:Anthropic发布新模型Claude Opus 4.1。Opus 4.1在编程能力方面实现了实质性突破,在编程评估基准SWE-Bench Verified上,该模型得分达到74.5%,比Claude Sonnet 3.7的62.3%和Opus 4的72.5%有明显进步。Anthropic强调,升级后的Opus模型在处理复杂多步骤问题时更加高效,定位为更有效的AI代理。新模型能够更好地导航大型代码库,在代码修改时更加精确。