文章摘要
【关 键 词】 AI技术、开源模型、世界模型、实时交互、具身智能
灵波科技(LingBot-World)的开源世界模型引发了AI领域的广泛关注。这一模型由蚂蚁旗下公司突然发布,其核心突破在于实现了实时动态生成的可交互虚拟世界。与Google Genie 3类似,但更具创新性的是,它允许用户通过简单的方向键控制实时生成场景,如第一人称探索废弃小镇,所有画面均根据交互指令即时渲染。这种”边走边算”的模式,彻底改变了传统视频生成模型预先渲染的被动观看体验,实现了”言出法随”的实时世界构建能力。
模型展现出三大核心优势。首先是长时记忆稳定性,解决了同类产品常见的”鬼打墙”问题。测试案例显示,在10分钟的古建筑探索中,场景始终保持连贯,遮挡关系和空间尺度精准可控,远优于此前Odyssey等模型1分钟即崩溃的表现。其次是风格泛化能力,通过融合真实视频、游戏录像和UE合成数据训练,模型能同时处理写实与非写实风格,从超现实场景到游戏质感的画面均能稳定生成。技术实现上借鉴了机器人领域的域随机化方法,增强了适应性。
动作代理系统是另一项重大创新。模型不仅能响应用户输入,还内置AI自主行为规划。论文披露采用视觉语言模型作为”玩家”,通过分析画面决定运动轨迹,实现了急停、避障等复杂行为。这种双重控制机制——用户指引大方向,AI处理细节运动——创造了全新的交互维度。模型包含三个版本:Base(Cam)专注镜头控制,Base(Act)强化行为指令,Fast系列优化实时响应,延迟低于1秒。
该技术的意义超越了娱乐应用,为具身智能提供了高保真训练环境。28B参数规模的模型完全开源,包含权重和详细论文,这种开放性可能加速整个领域发展。观察者将其影响类比为Sora发布时的震撼,认为世界模型是AI从数字空间迈向物理世界的关键跳板。蚂蚁集团此次突破性贡献,标志着可交互生成技术正向更普适、更实用的方向演进,为未来”随处可见的具身智能”奠定了基础。
原文和模型
【原文链接】 阅读原文 [ 3447字 | 14分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



