腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

AIGC动态2小时前发布 AIGCOPEN
113 0 0
腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

 

文章摘要


【关 键 词】 OCR端到端视觉语言轻量级文本识别

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联的流水线设计,将视觉编码器、自适应MLP连接器和轻量级语言模型整合为统一框架,实现”图像进-结果出”的高效处理。原生分辨率视觉编码器采用自适应分块机制,保留原始图像比例,确保微小文字和长文档边缘信息的精准捕捉;自适应MLP连接器通过可学习池化操作压缩冗余背景,使语言模型仅需处理关键语义区域;而集成XD-RoPE技术的语言模型则突破一维序列限制,实现对文本、高度、宽度和时间四维信息的统一编码。

数据工程构建体现系统性思维,2亿高质量图像-文本对覆盖九大核心场景和130多种语言。SynthDog合成框架不仅模拟常规排版,还能精确生成阿拉伯语等从右到左文本及复杂草书体。扭曲合成流水线通过几何变形、噪声注入和光照扰动,使模型具备应对现实拍摄缺陷的鲁棒性。视觉问答数据采用难例检索与多模型交叉验证机制,确保训练样本的高质量和逻辑自洽。这种数据策略有效解决了长尾分布问题,使模型在罕见语言和复杂字体场景表现优异。

训练过程采用四阶段渐进式策略:从视觉-语言对齐的基础训练,到多任务联合学习、长上下文适应,最终进行应用导向的微调。强化学习阶段引入群体相对策略优化(GRPO),将定位精度(IoU)、文本准确性(编辑距离)和格式规范性纳入统一奖励函数。这种设计使模型在保持1B参数轻量级的同时,实现了商业级精度。任务定义方面,所有OCR功能被统一为自然语言指令响应,输出标准化为Markdown、LaTeX等可编程格式,直接对接下游RAG系统。

性能测试显示,HunyuanOCR在文本定位、文档解析等任务中全面超越传统方案及大参数量模型。其内部测试集得分70.92,显著优于PaddleOCR(53.38)和BaiduOCR(61.90);在OmniDocBench文档解析基准达到94.10分,对折叠弯曲文档的识别保持85.21的稳定表现。信息提取任务准确率超92%,以1/200参数量击败Qwen3-VL-235B。多语言翻译在COMET指标上取得83.48分,优于Gemini-2.5-Flash。这些成果证明,通过架构创新与数据工程的协同优化,轻量级模型同样能实现工业级OCR性能。

原文和模型


【原文链接】 阅读原文 [ 3839字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...