如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！

AIGC动态2个月前发布 almosthuman2014

319 0 0

文章摘要

近来，世界模型（World Model）成为AI领域的热点，多个实验室展示了仅凭图片或文字生成可交互3D世界的炫酷Demo。然而，这些虚拟生成的内容大多基于模型想象，而如视（Realsee）则选择了另一条路径——真实复刻。11月13日，如视发布了全球首个支持全景图输入的空间大模型Argus 1.0，其核心目标是通过毫秒级推理，从单张或多张图像中还原带绝对尺度的相机位姿、深度图和点云，为2D图像通向3D真实空间架设了高速桥梁。

Argus 1.0的诞生依托于如视构建的“数字空间-算法-行业应用”飞轮循环。其核心驱动力是全球最大的三维空间数据库——截至2025年9月，如视已积累5300万套数字空间数据，覆盖44亿平方米。这些数据不仅量级庞大，更因自研硬件与算法实现了像素级精度的对齐。例如，伽罗华系列3D激光扫描仪能输出图像与点云平均误差小于2像素的高精度数据对，为模型训练提供了“所见即所得”的养料。如视年均超2亿的研发投入也转化为600余项专利及多项国际设计大奖，夯实了技术壁垒。

技术上，Argus 1.0基于Transformer架构，实现了三大突破：兼容性上，成为首个支持全景图输入的深度推测模型，并能处理AI生成图像；实时性上，通过联合训练深度推测与位姿计算模块，实现毫秒级全局重建；质量上，凭借真实数据解决了玻璃、镜面等传统难题。其命名源自希腊神话“百眼巨人”，象征从单视角推测迈向多视图一致性的技术跨越。

如视将空间智能划分为四层理论：重建、感知推理、业务融合及AIGC生成交互。Argus 1.0是第一层的集大成者，而团队下一步将攻坚第四层AIGC，链接行业规范与人类偏好以实现泛化交互。目前，该模型已应用于动态锁屏壁纸等场景，其深度精度优于苹果算法；预计Argus 2.0将支持实时渲染3D高斯泼溅模型，推动空间漫游与CAD自动生成。

为促进行业发展，如视计划开放10000套室内数据集，填补空间智能领域高质量数据的缺口。从VR看房到九大行业赋能，如视通过飞轮效应持续释放势能。Argus 1.0的发布不仅验证了真实数据对训练基础模型的决定性作用，更标志着空间智能从底层重建向顶层AIGC应用路径的正式打通。随着技术演进与生态开放，虚实融合的未来正加速到来。