94.5%精度登顶全球！百度开源0.9B“小钢炮”OCR模型

【94.5%精度登顶全球！百度开源0.9B“小钢炮”OCR模型】

你是否有过这样的经历？用手机拍下一张发票准备报销，财务却说“表格歪了识别不了”。这些因文档形变导致的数据混乱，正是OCR技术长期面临的难题。

1月29日，百度发布的PaddleOCR-VL-1.5模型，正是为解决这一问题而来。这项基于文心大模型研发的新一代文档解析技术，在全球权威评测OmniDocBench V1.5中，以94.5%的综合精度登顶榜首，性能超越了包括Gemini-3-Pro、DeepSeek-OCR2在内的诸多国际知名模型。

它的核心“杀手锏”，是一项名为“异形框定位”的全球首创能力。传统OCR模型本质上是基于“矩形世界”的假设进行设计的，对于任何非水平的线条和区域都束手无策，只能识别文字，无法还原结构。而PaddleOCR-VL-1.5则让AI第一次真正“看懂”了文档的几何形态。无论是倾斜拍摄的名片、弯折褶皱的票据，还是因透视变形呈梯形的白板照片，模型都能像一位经验丰富的文员，精准地“勾勒”出每一个单元格、每一段文本的真实边界，并将扭曲的内容自动“拉正”，还原出规整的数字化结构。

这一突破的技术价值，直接体现在其评测成绩单上：在表格结构理解任务中，它以92.8分位列第一；在阅读顺序预测这一决定文档逻辑的关键任务上，更以95.8分的高分领先，其逻辑解析错误率仅为同类模型的一半左右。这意味着，在处理复杂的合同、财报或多页报告时，新模型的输出不仅文字准确，更能保持原文的排版逻辑和数据关联性，实现了从“识字”到“懂文”的本质跨越。

除了核心的结构理解能力，该模型在实用性上也做了全面增强。它新增了对藏语、孟加拉语的支持，并专门优化了对古籍文献、生僻字、多语种混合表格乃至表单中下划线、复选框等复杂元素的识别能力。对于长文档，它还支持跨页表格的自动合并与标题的连贯识别，有效解决了信息断裂的问题。

值得强调的是，如此强大的能力，被封装在一个仅有0.9B参数的轻量级模型中。这意味着更高的部署效率和更低的计算成本，让尖端技术得以更快地飞入寻常企业。目前，PaddleOCR-VL-1.5已在GitHub和Hugging Face上全面开源，开发者可以免费获取并商用。普通用户也可以通过PaddleOCR官网的在线演示，立即体验这款“文档校正神器”的魅力。

从文心大模型的持续进化，到其衍生模型在垂直领域的精准突破，百度在2026年开年展现了中国AI产业扎实的技术推进力。PaddleOCR-VL-1.5的发布，不仅是一项技术的胜利，更是AI真正理解物理世界、解决实际业务痛点的重要里程碑。

游戏百科

94.5%精度登顶全球！百度开源0.9B“小钢炮”OCR模型

热门分类