IBM研究员发布新模型Bamba混合架构提升两倍推理速度既有Transforme

量子位看科技 2025-04-30 14:21:08

IBM研究员发布新模型Bamba混合架构提升两倍推理速度

既有Transformer的长序列处理能力,又有SSM的运行效率?

IBM研究院在29日发布了Bamba v2,一款基于Mamba-2架构的纯解码器语言模型,旨在处理广泛的文本生成任务,其核心特性即将被整合至IBM Granite 4.0当中。

通过显著降低Transformer键值缓存的内存需求,90亿参数的Bamba模型在保持同等精度下,运行速度可达同类规模Transformer的两倍以上。

Bamba的最初诞生源于Transformer架构固有的“平方级瓶颈”,生成文本的累积成本呈平方级增长。

这不仅造成了模型问答的延迟,同时也造成大量冗余计算。早在2022年ChatGPT普及Transformer时,研究者们就已开始寻找替代架构。

状态空间模型(SSMs)及SSM层与Transformer混合架构,已成为两大潜在解决方案。

2023年,门控SSM变体Mamba2被提出,推动了一系列混合架构的出现。英伟达去年证实,这些新型混合架构不仅能超越单一架构性能,还能大幅提升推理速度。

最新推出的Bamba v2相较v1,新增1万亿token训练数据,性能显著提升。

- 基准测试

在L1和L2基准测试中,Bamba v2的表现超越了训练数据量近5倍的Llama 3.1 8B模型。

配合最新vLLM优化,其推理速度达到同规模Transformer模型的2-2.5倍。

- HF OpenLLM v1 基准测试(含 OpenbookQA、BoolQ 和 PIQA 评测)【图2】

- HF OpenLLM v2 基准测试【图3】

- 训练过程

鉴于GPU资源有限(仅192块A100显卡),团队采用了两种方案:一是为现有模型注入新数据,二是尝试模型融合技术。【图4】

训练流程可分为三步:

1. 以2万亿token的基础检查点为起点,融入Olmo Mix数据集进行扩展训练,采用恒定学习率2e-5,将训练规模从2万亿token提升至2.5万亿token

2. 混合使用Nemotron-CC和Hugging Face数据,继续训练5000亿token使总量达到3万亿。进行恒定学习率和余弦衰减学习率对比实验,验证两种学习率策略的互补效果

3. 对两个模型进行1000亿token的高质量数据精炼,并使用MergeKit进行融合,通过加权平均生成最终Bamba 9B v2模型

团队透露,他们接下来要攻克的难题,是优化vLLM来运行SSM模型。

技术博客:

开源仓库:

0 阅读:4
量子位看科技

量子位看科技

感谢大家的关注