超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结

超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结

 

文章摘要


【关 键 词】 真实环境真机竞赛开源生态泛化能力长程任务

本次全球首届具身智能开发者大会(EAIDC)暨「具亮计划」黑客松决赛于3月30日收官,是全球首个将真实环境与真实任务写入赛制的大规模具身智能赛事。20支来自清华、北大等顶尖高校及科研机构的团队在72小时内,于深圳现场完成数据采集、模型训练与系统部署,使用主办方统一提供的近百台六轴机械臂、100+ PFLOPs算力及完整AI基础设施,挑战四道真实场景任务:套圆环、分水果、插电源线、拼单词。赛事核心目标是验证模型是否具备“看懂环境、做出决策、动手操作”三位一体的具身智能能力。

比赛现场构建了“顶配考场”,模型可自由选用WALL-OSS、Pi0.5、Dream Zero等开源基础模型,所有软硬件资源由主办方全量供给,彻底抹平外部变量差异,使最终评价聚焦于模型在真实物理世界中的实际性能。初期多数队伍连“跑通”都困难,成功率仅20%–30%,但通过调参与迭代,套圆环成功率提升至60%–70%,拼单词任务也从几乎不可用进阶至40%–50%,印证了真实环境对模型调优的有效性与可行性。

真正拉开差距的是后两题,尤其插电源线与拼单词任务:前者考验柔性物体操作与不确定性应对能力,后者则要求长时序规划、语言理解与多步执行逻辑。主办方明确指向——具身智能必须超越“手活儿好”,迈向“脑力强”。数据显示,部分模型在B榜上成绩骤降,暴露出泛化能力不足;部分团队因数据量匮乏,反映当前训练范式与数据利用效率亟待优化。

比赛凸显具身智能必须走向开源、真实与协作:自变量机器人强调,行业需以“真问题、真开源、真泛化”三原则推进生态建设。开源非仅开放代码,更在于释放可运行能力、支持实时部署与流程复现,从而降低门槛、激活大众开发者参与。以WALL-OSS为例,参赛者可在数小时内打通从模型加载到机械臂执行的完整闭环,支持Hugging Face、魔搭及主流控制系统对接。

具身智能的泛化路径需从通用基础模型出发,实现跨场景迁移,并主动嵌入养老、公共等封闭真实场景持续采集数据,再回流优化模型能力。这一“开源—创新—回馈”的良性循环,正是赛事被赋予的核心生态价值。赛事不止竞技,更承担着定义中国具身智能标准、吸引人才、推动产业化落地的使命。

未来该赛事将持续举办,依托开源平台与软硬件体系构建“真实世界评测场”,让技术成熟度的评判回归现实检验。正如专家所言,“来EAIDC的现场,看一眼”成为判断一个具身模型是否真能打的最简尺度。

原文和模型


【原文链接】 阅读原文 [ 3476字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...