Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上

AIGC动态12小时前发布 ai-front
85 0 0
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上

 

文章摘要


【关 键 词】 OCR视觉文本模型压缩多模态开源模型

DeepSeek团队最新发布的DeepSeek-OCR模型在OCR领域实现了多项技术突破。该6.6GB大小的专用模型首次量化了”视觉-文本token压缩比”,验证了10倍近无损压缩和20倍压缩下仍保持60%精度的可行性。模型创新性地提出DeepEncoder架构,解决了现有编码器在”高分辨率-低内存-少token”三者难以兼顾的困境,在实用场景中达到SOTA性能且token消耗最少。

这一成果引发了业界对输入形式的深入思考。Karpathy提出一个根本性问题:对大语言模型而言,像素是否比文本更适合作为输入形式?他认为图像输入具有多重优势:信息压缩更高效,能在更短上下文窗口中包含更多信息;能自然表达文字格式和视觉要素;支持双向注意力机制;最重要的是可以彻底摆脱tokenizer的限制。这种思路将许多文本任务重构为视觉任务,可能代表未来发展方向。

Pleiasfr联合创始人Alexander Doria高度评价该模型是”里程碑式的工程成就”,代表了轻量高效OCR模型的最佳范例,可能成为未来所有OCR系统的起点。他指出,OCR作为模式识别任务不需要复杂推理,因此DeepSeek-OCR采用仅12层的精简架构。模型创新之处在于采用”小型专家混合”范式,每次推理仅激活5亿参数,同时结合激进的编码策略和语义池化技术,显著提升处理速度。

开发者社区对该模型展现出浓厚兴趣。资深开发者Simon Willison通过Claude Code智能体在40分钟内成功将模型部署到NVIDIA Spark平台。这一实验验证了智能体辅助解决复杂技术问题的可行性,展示了AI协作开发的新范式。Simon通过赋予Claude完整Docker沙箱权限,让其自主解决PyTorch版本兼容性等难题,最终不仅成功运行OCR识别,还生成了详尽的部署文档。

在实际测试中,模型展现出良好的适应性,但需要针对不同提示模式进行调整。实验发现”grounding”模式偏重框检测,而特定格式的提示词能获得更完整的文本输出。开发者总结出成功部署的关键因素:提供充分的环境信息、允许智能体自主执行、在关键时刻给予经验引导。这种开发方式不仅提高了效率,也为复杂AI系统的部署提供了可复现的解决方案。

原文和模型


【原文链接】 阅读原文 [ 2555字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...