大模型的进化方向：Words to Worlds | 对话商汤林达华

387 0 0

文章摘要

李飞飞团队的空间智能模型Cambrian-S首次被国产开源AI模型SenseNova-SI超越。该模型由商汤科技开发，在多项空间智能基准测试中取得领先成绩。商汤科技首席科学家林达华强调，这不仅是技术突破，更标志着AI技术范式正在发生根本性转变。单纯依赖参数规模的AI发展路径已面临瓶颈，需要回归科研本质，探索原生多模态和空间智能的新方向。

当前AI发展面临重大转折点。虽然大语言模型在数学、编程等领域达到高水平，但对物理世界的理解能力仍存在明显缺陷。林达华指出，即使是最先进的模型，在处理简单空间关系时也常出错。这源于传统多模态架构的局限性：视觉信息在转化为语言Token过程中丢失了大量空间细节。要突破这一瓶颈，必须进行底层架构革新。

商汤科技提出的解决方案是原生多模态架构NEO。该架构从底层Transformer开始就支持视觉和语言信号的并行处理，使模型能够真正”理解”而非”猜测”三维空间关系。通过创新的跨视角预测训练方法，SenseNova-SI仅用同类模型10%的训练数据就达到领先水平，实现了数据效率的显著提升。

技术落地同样面临挑战。林达华提出”工业红线”概念，强调只有当技术创造的价值超过使用成本时才能真正实现商业化。商汤在视频生成领域取得突破，将扩散模型推理步数从100步压缩到4步，实现64倍速度提升，使实时生成高质量视频成为可能。这种算法与系统的协同优化，为AI在直播、短视频等领域的规模化应用铺平道路。

AI发展正经历从语言理解到世界交互的重大转变。林达华建议年轻研究者拓宽视野，关注具身智能、AI for Science等新兴领域。中国拥有丰富的应用场景和完整工业体系，为发展能与物理世界深度交互的AI提供了独特优势。在这场技术变革中，回归原始创新与突破工业红线同样重要，将共同推动AI技术实现质的飞跃。