如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

 

文章摘要


【关 键 词】 AI模型空间智能3D重建真实复刻技术突破

近来,世界模型(World Model)成为AI领域的热点,多个实验室展示了仅凭图片或文字生成可交互3D世界的炫酷Demo。然而,这些虚拟生成的内容大多基于模型想象,而如视(Realsee)则选择了另一条路径——真实复刻。11月13日,如视发布了全球首个支持全景图输入的空间大模型Argus 1.0,其核心目标是通过毫秒级推理,从单张或多张图像中还原带绝对尺度的相机位姿、深度图和点云,为2D图像通向3D真实空间架设了高速桥梁。

Argus 1.0的诞生依托于如视构建的“数字空间-算法-行业应用”飞轮循环。其核心驱动力是全球最大的三维空间数据库——截至2025年9月,如视已积累5300万套数字空间数据,覆盖44亿平方米。这些数据不仅量级庞大,更因自研硬件与算法实现了像素级精度的对齐。例如,伽罗华系列3D激光扫描仪能输出图像与点云平均误差小于2像素的高精度数据对,为模型训练提供了“所见即所得”的养料。如视年均超2亿的研发投入也转化为600余项专利及多项国际设计大奖,夯实了技术壁垒。

技术上,Argus 1.0基于Transformer架构,实现了三大突破:兼容性上,成为首个支持全景图输入的深度推测模型,并能处理AI生成图像;实时性上,通过联合训练深度推测与位姿计算模块,实现毫秒级全局重建;质量上,凭借真实数据解决了玻璃、镜面等传统难题。其命名源自希腊神话“百眼巨人”,象征从单视角推测迈向多视图一致性的技术跨越。

如视将空间智能划分为四层理论:重建、感知推理、业务融合及AIGC生成交互。Argus 1.0是第一层的集大成者,而团队下一步将攻坚第四层AIGC,链接行业规范与人类偏好以实现泛化交互。目前,该模型已应用于动态锁屏壁纸等场景,其深度精度优于苹果算法;预计Argus 2.0将支持实时渲染3D高斯泼溅模型,推动空间漫游与CAD自动生成。

为促进行业发展,如视计划开放10000套室内数据集,填补空间智能领域高质量数据的缺口。从VR看房到九大行业赋能,如视通过飞轮效应持续释放势能。Argus 1.0的发布不仅验证了真实数据对训练基础模型的决定性作用,更标志着空间智能从底层重建向顶层AIGC应用路径的正式打通。随着技术演进与生态开放,虚实融合的未来正加速到来。

原文和模型


【原文链接】 阅读原文 [ 3562字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...