智源悟界 · Emu3.5 重塑世界模型格局:首提多模态 Scaling 范式,AI 理解世界再进化
 
文章摘要
【关 键 词】 人工智能、世界模型、多模态、技术突破、Scaling范式
北京智源人工智能研究院发布了大规模多模态世界模型“悟界·Emu3.5”,该模型在模拟复杂物理世界方面展现出惊人的逼真度,并揭示了“多模态Scaling范式”的存在。这一突破标志着世界模型技术进入新高度,从单纯的视觉质量竞争转向对物理世界理解深度的全方位较量。
Emu3.5基于前代Emu3的技术哲学,采用统一的自回归预测目标“下一状态预测(Next-State Prediction,NSP)”和通用模型架构,通过海量多模态数据训练实现突破。模型采用34B稠密Transformer架构,将不同模态信息统一编码为离散Token序列,实现真正的端到端多模态统一处理。其训练目标看似简单——预测交错的视觉-语言序列下一个最可能状态,却迫使模型学会洞察现实世界的运行规律。
关键技术突破包括四个方面:原生多模态统一架构、单一预测目标、超10万亿Token的多模态数据集,以及首次揭示的多模态Scaling范式。最引人注目的是,随着预训练计算量增加,模型在全新任务上的错误率呈现可预测的平滑下降曲线,表明学到的世界知识能稳定泛化至未知领域。这一发现的重要性堪比GPT-3揭示的语言模型Scaling Law,意味着世界模型研究从“炼金术”时代进入“工程学”时代。
数据规模的大幅提升是Emu3.5成功的关键因素之一。训练数据集包含总计约790年的视频及其语音转录文本,构成视频-文本交错数据,使模型能沉浸式学习时空、物理和因果等世界信息。从Emu3到Emu3.5,模型规模从8B增加到34B,视频训练量从15年扩展至790年,带来时序一致性、跨模态语义推理等核心指标的显著提升。
世界模型之所以成为研究热点,在于其战略意义。掌握先进世界模型技术意味着掌握通往通用机器人、L5自动驾驶乃至AGI的钥匙。Emu3.5提出的技术范式为领域提供了清晰的发展路线,预示着未来竞争将围绕模型规模、数据规模和对物理世界的理解深度展开。这一突破可能成为推动机器从认知到行动、从虚拟走向现实的关键里程碑。
原文和模型
【原文链接】 阅读原文 [ 1606字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆
 
                             
                         
                             
                         
 
                    
 
               
                             
               
                             
               
                             
               
                             
               
                            


