专访中科第五纪黄岩:在具身智能的狂热中,做一位技术实干家
文章摘要
【关 键 词】 具身智能、工业落地、少样本训练、世界模型、认知架构
在2026年具身智能热潮中,黄岩作为中科院自动化所研究员与中科第五纪青年首席科学家,以其兼具学术深度与工程落地能力的全栈技术路径,为行业突破数据利用瓶颈提供新范式。他主导的研究长期聚焦真实工业场景痛点,主张摒弃“暴力堆叠”算力与数据的惯性路径,转而通过架构级创新提升数据效能——其团队推出的FAM系列超少样本大模型,仅需3至5条真机演示数据即可实现近97%的基础任务成功率,在极端低样本条件下实现高可靠性部署,有效打破“数据荒”壁垒。该模型核心创新在于将中间层一维表征恢复为三维热力图,实现空间结构信息无损流动,使机器人既具备全局环境建模能力(见森林),又能精准定位局部关键操作点(见树木),显著增强对光照变化、遮挡等复杂环境的泛化适应性。
在安全层面,黄岩团队提出BridgeV2W世界模型,以本体掩码设计将抽象动作序列映射至像素空间,打通视频生成模型与具身执行之间的语义鸿沟。实验表明其在未见视角与未见场景下仍能生成物理合理、视觉连贯的未来操作视频,大幅降低工业质检中因操作过猛或碰撞引发的安全风险。针对强化学习易受参数敏感性制约的问题,他们开发E-TTS框架,通过推理与动作联合扩展、历史感知闭环验证及自适应在线策略选择三大机制,实现无需微调模型权重、不依赖专家数据的轻量级后训练方案;研究证明“慢思考”推理机制比单纯扩大模型规模更能提升跨场景泛化能力,为资源受限场景提供高效智能升级路径。
更深远的是其底层认知逻辑的构建。黄岩强调,所有技术突破源于模拟人类注意、记忆、推理、决策等认知功能,并以此指导架构设计:FAM模型的局部注意力模仿人眼聚焦,BridgeV2W类比大脑预测机制,E-TTS呼应人类决策中的反思过程。在此基础上,其团队提出EC-Flow流预测框架,首次实现从无标注人类操作视频中自动解码机器人动作轨迹,成功应用于开冰箱等高难度任务,分别提升62%和45%成功率;配合一键生成多视角数据技术,基于单视角演示即可合成高质量多角度训练数据,使新视角任务成功率提升25.8%,显著缓解硬件布设成本压力。
当前中科第五纪依托来自中科院自动化所与清华的十余载科研积淀,已完成从VLN真机部署到世界模型VLA研发的多阶段跃迁,斩获多项顶会竞赛冠军,并于2026年初获数亿元Pre-A轮融资,体现资本对其务实路线的高度认可。公司推出轻量化仿人形轮式机器人,具备28自由度及亚毫米级作业精度;并以具身大脑供应商身份向央企等客户交付统一模型大脑与软硬协同解决方案,践行“以通用大脑赋能多样本体”的商业逻辑——这种“用极致数据效率换时间、用扎实工程转化价值”的策略,已成为其区别于同业狂热叙事的关键竞争力。
在2026年的具身智能赛道上,黄岩团队已证明:真正驯服物理世界的钥匙,并非算力堆叠,而是将真实数据的每一帧都榨出最大认知价值。
原文和模型
【原文链接】 阅读原文 [ 7165字 | 29分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★



