Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer！实测如何用Claude Code 让新模型跑在N卡上

85 0 0

文章摘要

DeepSeek团队最新发布的DeepSeek-OCR模型在OCR领域实现了多项技术突破。该6.6GB大小的专用模型首次量化了”视觉-文本token压缩比”，验证了10倍近无损压缩和20倍压缩下仍保持60%精度的可行性。模型创新性地提出DeepEncoder架构，解决了现有编码器在”高分辨率-低内存-少token”三者难以兼顾的困境，在实用场景中达到SOTA性能且token消耗最少。

这一成果引发了业界对输入形式的深入思考。Karpathy提出一个根本性问题：对大语言模型而言，像素是否比文本更适合作为输入形式？他认为图像输入具有多重优势：信息压缩更高效，能在更短上下文窗口中包含更多信息；能自然表达文字格式和视觉要素；支持双向注意力机制；最重要的是可以彻底摆脱tokenizer的限制。这种思路将许多文本任务重构为视觉任务，可能代表未来发展方向。

Pleiasfr联合创始人Alexander Doria高度评价该模型是”里程碑式的工程成就”，代表了轻量高效OCR模型的最佳范例，可能成为未来所有OCR系统的起点。他指出，OCR作为模式识别任务不需要复杂推理，因此DeepSeek-OCR采用仅12层的精简架构。模型创新之处在于采用”小型专家混合”范式，每次推理仅激活5亿参数，同时结合激进的编码策略和语义池化技术，显著提升处理速度。

开发者社区对该模型展现出浓厚兴趣。资深开发者Simon Willison通过Claude Code智能体在40分钟内成功将模型部署到NVIDIA Spark平台。这一实验验证了智能体辅助解决复杂技术问题的可行性，展示了AI协作开发的新范式。Simon通过赋予Claude完整Docker沙箱权限，让其自主解决PyTorch版本兼容性等难题，最终不仅成功运行OCR识别，还生成了详尽的部署文档。

在实际测试中，模型展现出良好的适应性，但需要针对不同提示模式进行调整。实验发现”grounding”模式偏重框检测，而特定格式的提示词能获得更完整的文本输出。开发者总结出成功部署的关键因素：提供充分的环境信息、允许智能体自主执行、在关键时刻给予经验引导。这种开发方式不仅提高了效率，也为复杂AI系统的部署提供了可复现的解决方案。