DeepSeek多模态新范式：一张图压缩7056倍，思考能力反超GPT和Claude

57 0 0

文章摘要

技术实现方面，研究基于DeepSeek-V4-Flash紧凑架构，采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单元，信息压缩率高达7056倍，从而以更低的算力消耗实现了顶尖的认知推理深度。训练过程分为数据构建与专家强化两大阶段。团队通过大规模网络数据挖掘与多重语义、几何质检流水线，构建了超四千万样本的高质量数据集。随后针对计数、空间推理、迷宫导航与路径追踪四大难题设计专项训练，利用强化学习奖励模型对预测误差、违规穿墙等细节进行精准调教，使模型逐步掌握粗粒度统计、多步拓扑推断及边界轨迹追踪能力。

在严格的统一标准测试中，该模型在多项硬核实测中与GPT-5.4、Claude-Sonnet-4.6等头部模型表现相当，在细粒度计数与迷宫路径追踪等强依赖空间拓扑感的任务上分数领先，验证了视觉锚定在链式推理中的结构性优势。研究同时指出当前技术仍存在分辨率瓶颈、需特定触发词启动以及拓扑泛化能力不足等局限。未来多模态智能的演进关键，将聚焦于构建更精准的低歧义指代机制，进一步打通语言理解与视觉世界融合的底层路径。