首个实时端侧部署世界模型，20万小时人类视频，BeingBeyond实现「两级跃迁」

988 0 0

文章摘要

随着具身智能领域的技术演进，智无界限发布的最新款具身世界模型 Being-H0.7 标志着该行业正式迈向可规模化复制的关键阶段。该模型首次在全球范围内将人类视频规模扩展至 20 万小时，并采用“隐式推理”的世界模型新范式进行训练。 这一数据基础远超以往，摆脱了对高同质仿真数据或真机采集样本的过度依赖。相比之下，部分厂商曾侧重于塔尖的真机数据，但智无界限更早确立了以塔底人类视频为核心的策略，认为分布式采集带来的多样性是集中式采集难以替代的核心优势。通过构建包含大量经验行为的数据库，该模型能够在无需逐帧预测画面的情况下，依赖内化的物理直觉判断运动趋势及物体交互后果，成功解决了生成式视频推理成本高且物理建模不精准的问题。

商业化能力的突破构成了此次发布的另一重磅里程碑，BeingH-0.7 作为全球首个实现在端侧计算平台上完成世界模型实时运行的系统，彻底消除了模型大规模部署的技术瓶颈。 借助自主研发的推理引擎，模型在 NVIDIA Jetson Orin NX 设备上的延迟大幅降低，达到 3.61 毫秒每步的计算水平，推理速度较同行提升了十倍之多，显存消耗则控制在较低区间。这三位一体地解决了具身智能领域长期存在的硬件算力限制问题。为了实现从理论到工厂流水线的全面贯通，团队建立了全链路的数据闭环体系，利用 U1 新型数据抓取设备，将人机操作细节高精度映射至机械手臂，确保了真实物理信号与指令的无损传输。

这种架构设计驱动了模型从通用能力向专家能力的双重进阶。大规模人类视频预训练让模型具备了适应各类未知环境的底座，而精细化的数采数据则赋予了其在垂直特定领域解决复杂装配与定量任务的高精确度。这一技术路径表明，具身智能正在经历从单纯的技术竞赛向产业基础设施建设的深刻转变。当世界模型具备了在真实物理空间中的即时反应与理解力时，智能体便不再是演示工具，而是能直接参与生产流程的智能实体。智无界限的系列成果揭示了未来的发展方向，即以人类认知规律为基础重塑机器决策逻辑，通过端云协同与低成本硬件普及，加速人工智能在实体经济中的广泛渗透与应用价值落地。