文章摘要
【关 键 词】 百度开源、文档解析、滑动窗口、端到端、魏浩然
百度近期开源了名为Unlimited OCR的光学字符识别模型,该模型总参数为3B,实际激活参数仅为500M。尽管参数规模极小,该模型在OmniDocBench v1.5和v1.6评测中分别取得93.23%和93.92%的综合得分,刷新了端到端领域的最高纪录,并超越了多个百亿级参数的大型视觉语言模型。
传统识别模型在处理长文档时通常采用逐页切割处理的方式,容易导致上下文失忆和推理速度下降。为了解决这一痛点,Unlimited OCR引入了参考滑动窗口注意力机制。该技术模拟人类阅读时的认知模式,在生成每个字符时全局参考图像视觉提示,同时仅回看最近的输出内容,从而将内存占用控制在恒定水平,彻底解决了长序列解码时的内存膨胀与降速问题。此外,结合深度编码器对图像进行高倍率压缩,该模型能够在标准的上下文窗口内,通过单次前向推理连续解析四十页以上的长文档,且保持极高的转录准确率与极低的复读率。
在研发背景方面,技术报告的核心贡献者中包含一位署名为缩写的技术总监。结合代码库致谢信息与行业背景推测,该负责人极有可能是此前主导开发多款知名端到端识别模型、并从深度求索离职的核心研究员魏浩然。这一人才流动为该项目注入了前沿的研究品味与技术视野。
此次技术突破不仅展现了卓越的学术研究能力,也与百度成熟的产业应用底座形成了有效互补。未来,该通用长程解析技术框架有望扩展至语音识别和机器翻译等更多领域,并计划将上下文窗口进一步扩展,以实现从单页文字识别向整书内容深度理解的跨越。
原文和模型
【原文链接】 阅读原文 [ 2084字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



