对话智源王仲远：机器人的大小脑可能会“合体”，但不是今天

1,964 0 0

文章摘要

在2024年智源大会上，智源研究院发布了”悟界”系列大模型，标志着人工智能技术向物理世界探索的显著进展。原生多模态世界模型Emu3通过统一架构实现了文本、图像、视频的任意组合理解与生成，验证了自回归框架在多模态领域的普适性。该技术为跨模态交互提供了强大基座，其新型视觉tokenizer将视觉数据编码为与文本同构的离散符号序列，构建了模态无关的统一表征空间。

基于Emu3架构的Brainμ模型引入脑信号作为新模态，实现了神经科学领域跨任务、跨模态、跨个体的统一建模，在多项任务中性能超越现有专有模型。该模型整合了超过100万单位的神经信号预训练数据，支持从基础研究到脑机接口应用的广泛场景，在便携式消费级脑电系统上成功重建感觉信号，展现了临床应用潜力。

在具身智能领域，RoboOS2.0框架实现了30%的性能提升，全链路响应时延低于3ms，并新增了多本体场景图共享机制和任务监控模块。配套的RoboBrain2.0模型在空间推理与任务规划指标上超越主流大模型，任务规划准确率提升74%，新增的空间推理能力和闭环反馈机制显著增强了机器人在动态环境中的适应能力。

OpenComplex2模型突破了生物分子动态构象分布预测的瓶颈，成为CASP16竞赛中唯一成功预测蛋白质构象分布的团队。该模型通过融合扩散生成式建模与实验数据，在原子分辨率层面捕捉分子相互作用，为揭示微观构象波动与宏观生物功能的关联提供了新视角，有望加速生物医药研发进程。

智源研究院院长王仲远强调，人工智能正加速从数字世界走向物理世界，世界模型是实现物理AGI的关键路径。当前技术布局围绕多模态发展方向展开，虽然机器人大小脑融合尚需5-10年时间，但”悟界”系列已展现出在虚实边界突破和物理世界赋能方面的重大潜力。这些进展共同构成了人工智能探索世界的新范式，为AGI发展奠定了重要基础。