LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

488 0 0

文章摘要

随着人工智能加速向物理世界延伸，智能体的核心任务已从单纯的环境感知转向对动态时空的预见与复杂决策。视启未来团队在此背景下重点布局隐空间世界模型技术路线，致力于突破传统像素级预测的局限。不同于主流模型直接生成下一帧画面，隐空间世界模型在更抽象的表征空间中学习动作与世界状态演化之间的因果规律，从而有效过滤光照与纹理等无关视觉细节，显著提升样本效率与物理泛化能力。针对现有隐空间方案缺乏结构化认知的瓶颈，该团队提出视觉原生世界模型架构，将多层级物体理解能力深度融入表征学习过程。

该路线严格遵循以物体为中心、跨本体动作对齐与因果驱动三大核心特征，使模型能够精准解析场景对象构成、统一异构交互数据，并建立动作引发状态转移的因果映射机制。这一技术方向的稳步推进依托于团队在开放世界视觉大模型领域的深厚积累。凭借Grounding DINO与DINO-X等基座模型在目标检测与三维理解上的领先性能，研发团队已构建从静态感知到动态交互的完整技术栈。同期推出的EgoTwin人手三维对齐引擎，实现了人类操作视频向机器人训练数据的高效转化，数据采集效率达到行业主流方案的数倍，为模型持续迭代构建了高质量数据闭环。

世界模型正逐步演变为物理世界人工智能的核心基础设施，视觉表征构成了连接数字算法与实体机器人的关键枢纽。在扎实的技术基座与复合型团队支撑下，研发力量将持续攻坚隐空间表征与强化学习的深度融合，推动智能体在复杂约束环境中实现自主规划与技能演化。该路径不仅验证了从经验数据中提取物理规律的可行性，也为具身智能技术从理论验证走向规模化产业落地提供了明确的工程范式。