标签:视觉原语

DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude

技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...