李想「不想造车」的背后，其实是想造「司机 Agent」

1,704 0 0

文章摘要

李想近期公开了理想汽车在智能化领域的重大进展，尤其是全新推出的VLA（Vision-Language-Action）模型，标志着理想汽车在智能驾驶领域的进一步突破。VLA模型是理想汽车在辅助驾驶领域“端到端+VLM”双系统架构基础上的进化，旨在让辅助驾驶系统具备类似人类司机的智能能力。李想认为，理想的智驾原创性已经超过了增程技术，智能化成为理想汽车未来发展的核心方向。

VLA模型的设计理念是让车辆能够像人类司机一样工作，通过语音指令与驾驶员高效交互。在演示视频中，VLA展示了其强大的智能能力，例如通过语音指令“走人工”切换收费通道，或通过“前方掉头”、“C区停车”等指令调整行车路线。这种交互方式达到了与人类司机沟通的日常水准，展现了VLA在辅助驾驶领域的潜力。

辅助驾驶技术的发展经历了多个阶段，从模块化方案到端到端感知，再到VLM+E2E架构，如今进入了VLA时代。李想将VLA描述为“司机大模型”，它并非突变，而是技术进化的结果。VLA的训练过程分为四个步骤：预训练、后训练、强化训练和司机Agent的设计。这一过程模拟了人类学习驾驶的路径，从基础认知到实际操作，再到经验积累，最终形成智能化的驾驶系统。

在技术细节上，VLA的训练首先通过预训练让AI掌握交通规则和路标识别，随后通过后训练模仿人类司机的驾驶行为，再通过强化训练在虚拟交通环境中不断优化。最终，VLA能够通过司机Agent接收自然语言指令并执行驾驶任务。李想强调，VLA并非终极解决方案，未来仍可能出现更高效的架构，但目前的Transformer架构已经展现了超越人类驾驶能力的潜力。

此外，李想还提到DeepSeek的开源对理想汽车AI研发的加速作用。DeepSeek的出现让理想汽车得以更快地推进VLA模型的研发，并促使理想开源了自研四年的整车操作系统——理想星环OS。李想将DeepSeek比作Linux，认为其开源精神推动了AI领域的进化，理想汽车也希望在垂直领域训练出专用大模型，以提升AI能力并交付价值。

在谈到竞争对手时，李想承认特斯拉FSD系统的基本功扎实，是理想需要学习的能力。他认为，在技术创新的同时，必须重视基本功的积累，否则创新将难以持久。人工智能是理想汽车当前的重点投入方向，李想和他的团队正致力于在这一领域实现更大的突破。