直播预告｜仉尚航、王鹤、高阳、赵行、杨耀东探讨 VLA 技术的实践与突破

2,480 0 0

文章摘要

视觉-语言-动作（VLA）技术作为具身智能的核心，正在加速从实验室走向产业应用，预计到2025年，全球具身智能产业规模将突破百亿美元。VLA技术在机器人、自动驾驶和工业自动化等领域的渗透日益加深，海内外团队如Physical Intelligence、Figure和清华大学等纷纷推出相关成果，例如π0.5模型、Helix和RDT等。然而，尽管技术进展显著，技术收敛度、数据稀缺和算力瓶颈等挑战仍然是当前的主要障碍。

2025年5月8日，AI科技评论举办了一场线上深度对话，邀请了来自北京大学和清华大学的五位青年科学家，围绕VLA技术的核心突破、场景落地及未来十年技术路径展开讨论。这些嘉宾兼具学界前沿洞察与产业实战经验，包括仉尚航、王鹤、高阳、赵行和杨耀东等。他们从理论和实践的角度，为从业者提供了对VLA技术的全面认知。

对话的核心议题聚焦于VLA的技术路线与最新成果、落地现状以及面临的挑战与未来发展方向。技术的突破并非孤立产生，而是通过开放碰撞和多方合作实现的。此次对话旨在探讨VLA技术从实验室到产业落地的破局之路，为行业提供新的思路和解决方案。

VLA技术的快速发展离不开多学科的交叉融合，尤其是在视觉、语言和动作三个领域的协同创新。尽管目前已有一些成功案例，但技术在实际应用中的稳定性和可靠性仍需进一步提升。此外，数据质量和算力资源的限制也制约了技术的进一步推广。未来，随着更多研究成果的涌现和产业生态的完善，VLA技术有望在更多场景中实现规模化应用，推动具身智能产业的持续增长。

此次线上对话不仅为学术界和产业界搭建了交流平台，也为VLA技术的未来发展指明了方向。通过多方合作与开放创新，VLA技术有望突破现有瓶颈，实现从实验室到产业深水区的跨越。