DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?

AIGC动态9小时前发布 Si-Planet
71 0 0
DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?

 

文章摘要


【关 键 词】 视觉压缩长上下文OCR增强多模态模型优化

DeepSeek近期发布的《DeepSeek-OCR》技术方案突破了传统OCR工具的局限,其核心价值在于通过视觉压缩解决大模型长上下文处理的瓶颈问题。当前主流大模型受限于128k-200k tokens的上下文窗口,而该方案创新性地采用“文本转图像再压缩”的逆向思路,将Tokens消耗降低一个数量级的同时保持精度。其技术架构由DeepEncoder视觉压缩模块和MoE专家解码器组成,形成高效的”压缩-解压缩”流水线。

在性能测试中,该方案展现出三大突破性优势:10倍压缩比下准确率仍达95%以上,标准数据集测试中仅用256个tokens即实现97.3%准确率,显存占用仅为竞品的35%。真实场景测试更凸显其应用价值:处理286页金融年报时表格还原准确率95.7%,62页科研论文的公式识别准确率92.1%,158页法律合同的批注关联准确率89.5%,均显著超越现有方案。训练效率方面,其动态数据生成框架的产能达到传统人工标注的400倍。

技术延伸层面,该方案提出的分层上下文管理策略将信息按重要性分级存储,在DeepSeek-R1模型上实现长文档问答准确率提升34.5%,显存节省68%。这使得16GB显存设备可处理600页PDF文档,为金融分析、教育评估、工业检测等领域带来60%-85%的效率提升。其多模态解析能力还能将图表转为HTML表格、分子式转SMILES格式,实现”一次识别、多种输出”。

尽管存在超高压缩比下信息保留率下降、复杂图形识别精度不足等局限,但该方案标志着从单纯OCR工具向大模型长上下文解决方案的范式转变。通过开源共享,DeepSeek为行业提供了降低大模型应用成本的新路径,其视觉压缩技术可能成为突破AI记忆瓶颈的关键,为多模态大模型优化指明新方向。

原文和模型


【原文链接】 阅读原文 [ 2212字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...