百度发布文档解析新王者：0.9B参数，96.33%得分新SOTA

26 0 0

文章摘要

百度PaddlePaddle团队发布并开源了PaddleOCR-VL-1.6文档解析模型。该模型以0.9B的紧凑参数规模，在OmniDocBench v1.6评测中取得96.33%的总分并登顶榜首，展现出卓越的文档结构化解析能力。这一成果直接提升了下游检索、推理及检索增强生成系统获取高质量输入的可靠性。

在模型优化策略上，研发团队改变了无差别堆叠数据的传统做法，转而系统性诊断并定位了上一代模型的三类薄弱区域，即边界脆弱区域、覆盖稀疏区域和不可靠监督区域。通过精准补充长尾数据与修正错误标签，结合模型驱动的数据引擎，新模型在表格、图表、公式及古籍等多种复杂场景下的识别性能均获得显著提升。

训练流程采用了三阶段递进式后训练策略。第一阶段通过持续预训练让模型广泛覆盖新数据分布；第二阶段利用监督微调聚焦难样本，专门打磨模型在脆弱区域的表现；第三阶段引入基于GRPO的强化学习，并设计了高潜力样本挖掘策略与可验证的奖励函数，确保小参数模型在复杂任务中获取稳定且有效的奖励信号。

评测结果表明，PaddleOCR-VL-1.6不仅在标准基准测试中刷新纪录，在模拟真实场景的评测中同样位居第一，其实际表现超越了众多百亿乃至千亿参数的通用大模型。这种“诊断薄弱区域、精准补充数据、递进式训练”的方法论，证明了在不改变架构和不增加参数的前提下，依然能大幅提升模型的鲁棒性与泛化能力。该模型的低部署成本使其非常适合在端侧和边缘设备上运行，为文档数字化等实际落地场景提供了高效的解决方案。