语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」

AIGC动态4小时前发布 geekpark
53 0 0
语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」

 

文章摘要


【关 键 词】 人工智能多模态模型世界模型技术突破智源研究院

智源研究院发布的「悟界 EMU3.5」多模态世界大模型,标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下,多模态被视为人工智能的下一个重要方向。然而,如何有效融合文本、图像、视频等不同模态数据一直是业界难题。EMU3.5通过原生多模态架构和自回归技术,尝试从根本上解决这一问题。

EMU3.5的核心突破之一是解决了自回归架构的效率问题。通过创新的DiDA(离散扩散自适应)技术,模型在生成图像时的推理速度提升了近20倍,使自回归架构的生成效率首次媲美顶尖闭源扩散模型。这一工程突破补齐了原生多模态路线的核心短板,证明了该路线不仅理论上可行,实践中也具备竞争力。

在规模化方面,EMU3.5开启了继语言预训练和后训练及推理之后的「第三个Scaling范式」。模型参数从80亿跃升至340亿,视频数据训练时长从15年增至790年,性能显著提升。这一范式具有架构统一性、设施可复用性和强化学习引入三大特点,为多模态模型的持续规模化提供了清晰路径。

EMU3.5的另一重大转变是从「Next-Token Prediction」升级为「Next-State Prediction」。这一转变意味着模型不再只是机械地续写数据,而是要理解事物背后的因果和规律,预测世界的逻辑状态。这种能力在多个场景中得到体现:从生成图文并茂的行动指南,到完成需要逻辑推理的图案填充任务,再到展现对物体三维空间关系的理解。

这种状态预测能力最终指向了具身智能的应用。EMU3.5可以通过对物理世界的理解和模拟,为机器人生成高质量的仿真训练数据。在演示中,模型能够自主规划并生成机器人完成复杂折叠动作的完整序列。初步测试显示,利用EMU3.5的世界模型能力,机器人在未见过的场景中执行任务的成功率可从0%提升至70%。

EMU3.5的发布不仅解决了多模态模型的关键技术瓶颈,还开启了一条通过规模化提升能力的清晰路径。其最终目标是实现AI对物理规律和因果关系的真正理解,为通用人工智能的发展奠定基础。随着技术细节的披露和未来开源计划的实施,这一来自中国的创新范式有望在多模态世界模型的新赛道上发挥引领作用。

原文和模型


【原文链接】 阅读原文 [ 2817字 | 12分钟 ]
【原文作者】 极客公园
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...