24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

AIGC动态1小时前发布 QbitAI
51 0 0
24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

 

文章摘要


【关 键 词】 数字人实时互动多模态虎牙模型虚拟直播

虎牙近期推出了基于DiT架构的实时多模态数字人基础模型虎牙VAM 1.0。用户仅需输入一张照片,即可生成具备说话、聆听、唱歌跳舞以及游戏互动能力的AI数字人。该模型能够实现高分辨率的实时流式输出,并支持连续稳定运行24小时以上,满足严苛的直播需求。

在实测体验环节,该模型展现出高度的拟真感与流畅的自然交互能力。其核心的全状态拟人交互仿真技术,能够自然覆盖静默、聆听和说话三种状态,并在面部微表情与肢体动作上实现精准调控。系统支持用户随时打断并无缝接话,彻底消除了传统数字人的机械感。此外,数字人还能实时生成不重样的歌舞表演,并在复杂的多角色策略游戏中展现出优秀的协同驱动能力,大幅提升了场景沉浸感。

底层技术方面,该模型有效攻克了AI数字人行业的三大核心技术壁垒。在时间维度上,研发团队采用三阶段训练策略,有效解决了画面累积误差问题,确保数字人长时间运行不漂移、不走样。在交互维度上,突破了传统单向输出限制,原生支持弹幕与语音双链路并行的全双工实时对话。在部署维度上,通过全链路工程与算子优化,在降低算力开销的同时,实现了极低延迟的实时推理。

虎牙VAM 1.0凭借长时间运行稳定、交互节奏精准、响应速度快捷的核心优势,确立了其作为实时交互主体的技术领先地位。 这一突破不仅得益于底层算法的创新,更归功于平台深耕直播领域多年的丰富场景积淀。真实的互动需求倒逼技术不断进行深度适配与迭代。AI技术正全面从外挂工具转变为直播系统的核心组成部分,为构建下一代实时交互内容生态奠定了坚实基础。

原文和模型


【原文链接】 阅读原文 [ 4504字 | 19分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...