都已经到除夕了,阿里的通义团队还在干模型。
今天凌晨放出了 Qwen2.5-VL,在多模态模型领域拿下13个开源冠军。开源终于有一款和 GPT4o和Claude3.5同样水平的多模态模型了。
- 视觉解析能力巨大飞跃,不仅能分析万物,还能识别图像结构和布局,精准定位各种元素,对图表和文档理解能力更是超强。
- 支持超长的视频理解,支持最长1小时的视频理解,对视频内容进行秒级定位。
- 支持视觉智能体,无需微调,模型本身就能直接当Agent,让模型查天气,订机票,修美图。
模型开源了三个尺寸,72B性能最强,7B性能平衡,3B端侧部署速度最快。
中国的AI团队在龙年的表现太给力了。