文章摘要
【关 键 词】 AI技术、世界模型、多模态学习、自回归架构、推理加速
人工智能领域迎来重大突破,北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练,采用自回归架构实现多模态理解与生成的统一。其创新性体现在三个方面:首先,采用”Next-State Prediction”范式,将图像、文本和动作指令统一为Token序列进行预测;其次,开创”预训练+多模态RL”的第三种Scaling范式,通过大规模长视频预训练和强化学习提升模型能力;第三,研发DiDA技术使推理速度提升20倍,解决了自回归模型生成效率低下的问题。
Emu3.5的技术路线与主流多模态模型形成鲜明对比。不同于将理解与生成分开处理的”模块拼接式”方法,该模型回归”第一性原理”,模仿人类从连续视觉经验中学习的方式。其训练数据规模惊人,包含超过13万亿多模态Token,核心是累计790年的互联网长视频数据,这些数据天然蕴含丰富的时空连续性和因果逻辑关系。
在应用层面,Emu3.5展现出全方位的卓越性能。在图像生成与编辑任务中超越现有公开模型,能够进行高层语义理解、数字空间定位和视角变换。作为世界模型,其核心优势体现在长时序、高一致性的世界学习能力上:可以生成情节连贯的视觉叙事,提供清晰的视觉指导步骤,实现连续的世界探索画面,甚至规划具身操作的完整流程。这些能力为解决具身智能领域数据稀缺问题提供了新思路。
Emu3.5的成功验证了多模态Scaling范式的可行性。虽然当前参数规模仅为340亿,使用的视频数据不足互联网公开数据的1%,但其展现出的潜力已经令人瞩目。智源研究院公开了详尽技术报告,希望推动这条由中国开创的技术路线成为主流发展方向。随着模型规模和数据的进一步扩大,这个”世界模型基座”有望带来更多突破性进展。
原文和模型
【原文链接】 阅读原文 [ 3316字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




