游戏百科

微软联手英伟达再创记录:每秒推理速度达110万token

11月5日消息,微软宣布,其AzureNDGB300v6虚拟机在Meta的Llama270B模型上实现了每秒推理速度达110万token的行业新纪录。

微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。”

AzureNDGB300虚拟机采用英伟达的BlackwellUltraGPU,具体为NVIDIAGB300NVL72系统,配置了72个NVIDIABlackwellUltraGPU和36个NVIDIAGraceCPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有50%的GPU内存提升和16%的热设计功率提高。

微软表示:“一个NVL72机架的AzureNDGB300v6实现了总计110万个token每秒的推理速度。”这一新记录超越了微软之前在NVIDIAGB200NVL72机架上实现的865000token每秒的成绩。

根据系统配置,每个GPU的性能大约为15,200token每秒。微软还提供了详细的模拟过程和所有日志文件及结果。该性能记录经过了独立的性能验证和基准测试公司Signal65的验证。

Signal65的实验室副总裁拉斯・费洛斯在博客中指出:“这一里程碑不仅突破了每秒百万token的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。”他补充道,AzureNDGB300相较于上一代NVIDIAGB200在推理性能上提升了27%,而仅增加了17%的功率规格。与NVIDIAH100代相比,GB300在推理性能上几乎提升了10倍,同时在机架级别的功率效率上提高了近2.5倍。(AI普瑞斯编译)(转载自:AI普瑞斯)