IBM研究员发布新模型Bamba混合架构提升两倍推理速度既有Transforme

IBM研究员发布新模型Bamba混合架构提升两倍推理速度

既有Transformer的长序列处理能力，又有SSM的运行效率？

IBM研究院在29日发布了Bamba v2，一款基于Mamba-2架构的纯解码器语言模型，旨在处理广泛的文本生成任务，其核心特性即将被整合至IBM Granite 4.0当中。

通过显著降低Transformer键值缓存的内存需求，90亿参数的Bamba模型在保持同等精度下，运行速度可达同类规模Transformer的两倍以上。

Bamba的最初诞生源于Transformer架构固有的“平方级瓶颈”，生成文本的累积成本呈平方级增长。

这不仅造成了模型问答的延迟，同时也造成大量冗余计算。早在2022年ChatGPT普及Transformer时，研究者们就已开始寻找替代架构。

状态空间模型（SSMs）及SSM层与Transformer混合架构，已成为两大潜在解决方案。

2023年，门控SSM变体Mamba2被提出，推动了一系列混合架构的出现。英伟达去年证实，这些新型混合架构不仅能超越单一架构性能，还能大幅提升推理速度。

最新推出的Bamba v2相较v1，新增1万亿token训练数据，性能显著提升。

- 基准测试

在L1和L2基准测试中，Bamba v2的表现超越了训练数据量近5倍的Llama 3.1 8B模型。

配合最新vLLM优化，其推理速度达到同规模Transformer模型的2-2.5倍。

- HF OpenLLM v1 基准测试（含 OpenbookQA、BoolQ 和 PIQA 评测）【图2】

- HF OpenLLM v2 基准测试【图3】

- 训练过程

鉴于GPU资源有限（仅192块A100显卡），团队采用了两种方案：一是为现有模型注入新数据，二是尝试模型融合技术。【图4】

训练流程可分为三步：

1. 以2万亿token的基础检查点为起点，融入Olmo Mix数据集进行扩展训练，采用恒定学习率2e-5，将训练规模从2万亿token提升至2.5万亿token

2. 混合使用Nemotron-CC和Hugging Face数据，继续训练5000亿token使总量达到3万亿。进行恒定学习率和余弦衰减学习率对比实验，验证两种学习率策略的互补效果

3. 对两个模型进行1000亿token的高质量数据精炼，并使用MergeKit进行融合，通过加权平均生成最终Bamba 9B v2模型

团队透露，他们接下来要攻克的难题，是优化vLLM来运行SSM模型。

技术博客：

开源仓库：

0 阅读：4