北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈

AIGC动态6小时前发布 aitechtalk
71 0 0
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈

 

文章摘要


【关 键 词】 具身智能强化学习多模态互联网视频机器人

卢宗青是一位具身智能领域的创业者,拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授,并负责过多个国家级科研项目。他的研究领域从强化学习逐渐转向具身智能,致力于开发一个通用的具身人工智能模型。卢宗青认为,当前的多模态模型缺乏与世界交互的能力,泛化性不足,无法真正理解动作与世界的关系。这成为他创业的起点,他希望通过互联网视频数据来训练模型,使其具备更强的泛化能力。

在具身智能领域,卢宗青与其他创业者的出发点不同。他强调,他们的目标是追求更统一、更本质的解决方案,而非仅仅在现有智能上限的基础上进行修补。他批评了一些具身创业公司提出的“世界模型”概念,认为这些模型本质上只是在建图,无法真正实现物理世界的交互。卢宗青坚信,只有通过互联网视频数据,才能实现具身智能的规模化发展。他的公司「智在无界」BeingBeyond 正在通过标注1500万条互联网视频中人类关节的动作,来训练模型学习人类的运动模式。

卢宗青的技术路线与杨立昆的观点相似,他们都认为现阶段的语言模型无法实现通用人工智能,而更多元的视觉信息才是通向AGI的关键。他提到,互联网视频数据是唯一可以规模化扩展的路径,尽管这条路充满挑战,但别无选择。卢宗青的公司目前已经积累了大量的视频数据,并正在验证其技术路线的可行性。

在技术实现上,卢宗青强调,具身智能的核心在于通过互联网视频数据学习人类的运动模式,而非仅仅依赖遥操作或真机数据。他认为,现有的遥操作和真机数据采集方法泛化性差,无法满足通用智能的需求。相比之下,互联网视频数据能够提供更丰富的先验信息,帮助模型更好地理解物理世界的交互。

卢宗青对具身智能的未来充满信心,但他也承认,这条路充满不确定性,短期内难以实现商业化。他提到,具身智能的发展需要大量的计算资源和时间,目前的技术手段还不足以实现真正的世界模型。尽管如此,他仍然坚持探索,并希望在未来能够找到更有效的技术范式。

在融资方面,卢宗青表示,投资人对他的技术路线表现出了一定的兴趣,但具身智能的商业化前景仍然不明朗。他强调,具身智能的发展需要长期投入,短期内难以看到回报。尽管如此,他仍然相信,具身智能的未来充满潜力,并希望能够在全球范围内与其他团队展开竞争。

总的来说,卢宗青的创业愿景是通过互联网视频数据实现具身智能的规模化发展,他坚信,这条技术路线是通向通用人工智能的唯一路径。尽管面临诸多挑战,他仍然坚持探索,并希望在未来能够找到更有效的解决方案。

原文和模型


【原文链接】 阅读原文 [ 8442字 | 34分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...