3B模型也能理解GUI界面vivo发布端侧多模态模型
vivo AI Lab发布AI多模态新模型了,专门面向端侧设计,紧凑高效,还能直接理解GUI页面。
模型BlueLM-2.5-3B,融合文本和图文的理解和推理能力,支持长短思考模式自由切换,并引入思考预算控制机制。
与同尺寸模型相比,BlueLM-2.5-3B在多个文本与多模态评测任务中表现出色:
- BlueLM-2.5-3B支持思考预算控制(thinking token budget),有效平衡思考深度和推理成本。
- 兼具多模态推理和文本的推理能力,思考范围扩展。
另外值得一提的是,作者对模型结构与训练策略进行了深度优化,显著降低了训练和推理成本。通过优质数据筛选、自动配比策略以及大规模推理合成数据,模型的数据利用效率大幅提升。
同时,模型训练全过程由自建的高性能训练平台与框架高效支撑,确保了训练效率和训练稳定性。
以下是更多细节👇