大模型的进化方向:Words to Worlds | 对话商汤林达华

AIGC动态4小时前发布 QbitAI
33 0 0
大模型的进化方向:Words to Worlds | 对话商汤林达华

 

文章摘要


【关 键 词】 AI模型空间智能开源技术多模态商汤科技

李飞飞团队的空间智能模型Cambrian-S首次被国产开源AI模型SenseNova-SI超越。该模型由商汤科技开发,在多项空间智能基准测试中取得领先成绩。商汤科技首席科学家林达华强调,这不仅是技术突破,更标志着AI技术范式正在发生根本性转变。单纯依赖参数规模的AI发展路径已面临瓶颈,需要回归科研本质,探索原生多模态和空间智能的新方向。

当前AI发展面临重大转折点。虽然大语言模型在数学、编程等领域达到高水平,但对物理世界的理解能力仍存在明显缺陷。林达华指出,即使是最先进的模型,在处理简单空间关系时也常出错。这源于传统多模态架构的局限性:视觉信息在转化为语言Token过程中丢失了大量空间细节。要突破这一瓶颈,必须进行底层架构革新。

商汤科技提出的解决方案是原生多模态架构NEO。该架构从底层Transformer开始就支持视觉和语言信号的并行处理,使模型能够真正”理解”而非”猜测”三维空间关系。通过创新的跨视角预测训练方法,SenseNova-SI仅用同类模型10%的训练数据就达到领先水平,实现了数据效率的显著提升。

技术落地同样面临挑战。林达华提出”工业红线”概念,强调只有当技术创造的价值超过使用成本时才能真正实现商业化。商汤在视频生成领域取得突破,将扩散模型推理步数从100步压缩到4步,实现64倍速度提升,使实时生成高质量视频成为可能。这种算法与系统的协同优化,为AI在直播、短视频等领域的规模化应用铺平道路。

AI发展正经历从语言理解到世界交互的重大转变。林达华建议年轻研究者拓宽视野,关注具身智能、AI for Science等新兴领域。中国拥有丰富的应用场景和完整工业体系,为发展能与物理世界深度交互的AI提供了独特优势。在这场技术变革中,回归原始创新与突破工业红线同样重要,将共同推动AI技术实现质的飞跃。

原文和模型


【原文链接】 阅读原文 [ 3126字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...