开源SOTA！商汤原生多模态一个大脑完成看图、推理、作画

318 0 0

文章摘要

商汤正式开源新一代视觉多模态模型SenseNova U1，其核心突破在于全面摒弃传统的视觉编码器与变分自编码器拼接方案，转而采用自研的NEO-unify原生统一架构。该架构深度整合混合Transformer主干网络，将文本自回归与像素流匹配目标融入统一训练循环，促使视觉信号与语言序列在同一表征空间内并行计算。系统彻底剥离了外挂适配模块对模态切换的依赖，从根本上消解了跨模态转换过程中的信息折损，确立了理解与生成端到端协同的技术基线。

在算力效能与基准评测维度，轻量级配置展现出高度的工程实用性。该模型在八B参数规模下完成密集推理与动态生成任务，通过大幅压低多模态场景的预测延迟，各项综合指标已直接对标行业头部商用系统。为加速产业落地，初始权重即提供对十余款国产计算芯片的原生适配支持。面向复杂内容生产需求，架构能够一次性输出图文混排长文本、高保真物理推理图示及动态图像编辑结果，内在的统一空间亦直接赋能视觉动作规划与具身底座预研。

伴随功能边界的扩展，当前版本的客观工程边界获得完整披露。视觉交互上下文被严格限定在三万二千令牌范围内，极端高密度场景的解析吞吐量受限。人物微观交互生成、复杂提示词下的文字渲染稳定性仍需专项优化。研发团队已明确后续演进将依托更大参数规模与定向强化学习微调，系统性攻克细粒度失真瓶颈。统一表征路径的确立显著压缩了图文生产链路，轻量化开源方案正推动多模态技术向全场景应用快速渗透。