用多模态LLM超越YOLOv3强化学习助力突破AI视觉感知华中大与北邮等团队,推

量子位看科技 2025-05-03 17:24:10

用多模态LLM超越YOLOv3强化学习助力突破AI视觉感知

华中大与北邮等团队,推出了Perception-R1(PR1),这是首个突破30AP的纯多模态开源LLM,超越YOLOv3和Faster-RCNN等经典模型,在COCO2017 val set上表现出色。

PR1通过基于规则的强化学习(RL),优化视觉感知能力,在物体检测、OCR和计数任务中表现突出。PR1的感知策略优化框架使得现有MLLM在这些复杂任务中更加精准。

实验结果证明,PR1在visual grounding、OCR和Pixmo-Count等任务中表现超越同类专用模型,展示了其出色的可扩展性。PR1为AI视觉感知的未来发展奠定了坚实基础,推动了AI模型理解视觉信息的极限。

0 阅读:6
量子位看科技

量子位看科技

感谢大家的关注