文章摘要
【关 键 词】 自动驾驶、神经网络、世界模拟器、端到端学习、特斯拉技术
特斯拉近日公布了其「世界模拟器」的震撼演示,展示了神经网络如何通过模拟虚拟世界来训练自动驾驶系统。这一系统能够生成逼真的驾驶场景,包括行人横穿马路、车辆加塞等复杂情况,并通过对抗性训练不断优化AI的应对能力。演示中,神经网络成功合成了8个摄像头、24帧/秒的连续画面,一次输出长达6分钟的驾驶体验,细节还原度极高。这一技术不仅用于自动驾驶,还可应用于人形机器人擎天柱的训练,为其提供无限的虚拟试炼场。
特斯拉选择的技术路线是「端到端」神经网络,与传统的模块化方法截然不同。传统方法将驾驶任务拆分为感知、预测和规划等独立模块,而特斯拉的端到端网络直接从原始数据(如摄像头画面、车辆速度等)输出驾驶指令(方向盘角度和油门/刹车力度)。这种方法的优势在于能够学习人类的价值观,避免模块间的信息损失,并更好地处理现实中的「长尾问题」。例如,在面对「迷你电车难题」时,AI能够像人类一样做出权衡,而不是依赖预设规则。
端到端系统的核心挑战在于处理海量输入数据。特斯拉的神经网络需要处理高达20亿个输入token(包括摄像头画面、导航地图、车辆动态数据等),并将其压缩为2个输出token。为了解决这一问题,特斯拉利用其车队每天产生的海量数据(相当于人类500年驾驶时长),并通过「数据引擎」流水线筛选高质量样本。这种数据驱动的训练方式使AI能够学习复杂的因果关系,例如在雨天提前预判前车可能打滑的场景。
为了提高系统的可解释性,特斯拉开发了「中间token」技术,用于揭示AI的决策过程。例如,「生成式高斯泼溅」技术能够基于摄像头画面生成3D模型,帮助工程师理解AI的视角和判断。此外,AI还能用自然语言解释其决策,进一步增强了透明性。这些技术已在FSD v14.x版本中部分应用。
「世界模拟器」是特斯拉的终极评估工具,能够生成高保真度的虚拟驾驶场景。它不仅用于闭环评估和情景再现,还能创造对抗性场景,专门测试AI的极限。这一模拟器的核心功能是预测「下一秒世界会变成什么样」,从而为AI提供无限试错的机会。值得注意的是,该技术已无缝迁移至人形机器人擎天柱项目,为其在工厂环境中的导航和交互提供训练支持。
特斯拉的野心不仅限于自动驾驶,而是打造一套通用的物理世界交互AI引擎。通过端到端神经网络和世界模拟器,特斯拉正在构建一个能够解决复杂现实问题的底层系统。这一技术的扩展性和简洁性使其成为未来AI发展的重要方向,同时也为自动驾驶和人形机器人的融合提供了可能。
原文和模型
【原文链接】 阅读原文 [ 3491字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




