清华深研院等开源GUAVA：单图0.1秒出3D形象，打破数字人天花板

902 0 0

文章摘要

【关键词】 数字人技术、GUAVA算法、EHM模型、3D高斯泼溅、应用场景

清华深研院和国际数字经济研究院的中国团队推出数字人技术GUAVA，在数字人赛道表现亮眼。

长久以来，构建高质量、可驱动的3D数字人是计算机视觉领域难题。传统方法要么需多视角拍摄，要么训练耗时久，基于SMPLX的方法还存在脸部和手部表现不佳的问题。

GUAVA效果惊人。与其他算法对比，在自重现任务中，其帧率达52帧，远超2D生成方法的0.2帧；在画质指标PSNR、SSIM、LPIPS上均排名第一，重建速度仅约98毫秒，远快于ExAvatar、GaussianAvatar和GART；身份一致性IPS为0.5554，是第二名Champ的1.5倍多。

GUAVA能有如此表现，得益于其秘密武器EHM模型和3D高斯泼溅。EHM模型是“灵魂注入器”，它结合了SMPLX的身体骨架、FLAME的顶级脸蛋和精准手部控制。FLAME是人脸建模界顶流，能还原微表情，解决了SMPLX忽略面部细节的问题。3D高斯泼溅是“性能加速器”，它不使用神经网络查光线，而是将场景拆成3D高斯球往屏幕上“泼”，通过“逆纹理映射”和“投影采样”将2D像素“贴”到3D模板上，再加轻量级“神经渲染器”修整，速度极快，能轻松实现实时50帧。此外，GUAVA采用双分支架构，“模板高斯分支”和“UV高斯分支”合并后形成Ubody Gaussians，动画时能实现丝滑效果。

GUAVA应用场景广泛。自媒体可将一张人物图在0.1秒内变成可定制角色，节省工期和预算；直播主播能上传自拍秒变虚拟形象，自由切换表情包；电商老板可拥有千人千面虚拟模特，实现7×24小时在线试衣；教育领域能开展虚拟老师的沉浸式教学培训。该团队不靠PPT融资和元宇宙概念炒作，凭借ICCV 2025顶会论文和开源代码，用数据说话，引发全球同行关注。