文章摘要
【关 键 词】 文档解析、紧凑模型、强化学习、数据引擎、端侧部署
百度PaddlePaddle团队发布并开源了PaddleOCR-VL-1.6文档解析模型。该模型以0.9B的紧凑参数规模,在OmniDocBench v1.6评测中取得96.33%的总分并登顶榜首,展现出卓越的文档结构化解析能力。 这一成果直接提升了下游检索、推理及检索增强生成系统获取高质量输入的可靠性。
在模型优化策略上,研发团队改变了无差别堆叠数据的传统做法,转而系统性诊断并定位了上一代模型的三类薄弱区域,即边界脆弱区域、覆盖稀疏区域和不可靠监督区域。通过精准补充长尾数据与修正错误标签,结合模型驱动的数据引擎,新模型在表格、图表、公式及古籍等多种复杂场景下的识别性能均获得显著提升。
训练流程采用了三阶段递进式后训练策略。第一阶段通过持续预训练让模型广泛覆盖新数据分布;第二阶段利用监督微调聚焦难样本,专门打磨模型在脆弱区域的表现;第三阶段引入基于GRPO的强化学习,并设计了高潜力样本挖掘策略与可验证的奖励函数,确保小参数模型在复杂任务中获取稳定且有效的奖励信号。
评测结果表明,PaddleOCR-VL-1.6不仅在标准基准测试中刷新纪录,在模拟真实场景的评测中同样位居第一,其实际表现超越了众多百亿乃至千亿参数的通用大模型。这种“诊断薄弱区域、精准补充数据、递进式训练”的方法论,证明了在不改变架构和不增加参数的前提下,依然能大幅提升模型的鲁棒性与泛化能力。 该模型的低部署成本使其非常适合在端侧和边缘设备上运行,为文档数字化等实际落地场景提供了高效的解决方案。
原文和模型
【原文链接】 阅读原文 [ 1890字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆



