24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

51 0 0

文章摘要

虎牙近期推出了基于DiT架构的实时多模态数字人基础模型虎牙VAM 1.0。用户仅需输入一张照片，即可生成具备说话、聆听、唱歌跳舞以及游戏互动能力的AI数字人。该模型能够实现高分辨率的实时流式输出，并支持连续稳定运行24小时以上，满足严苛的直播需求。

在实测体验环节，该模型展现出高度的拟真感与流畅的自然交互能力。其核心的全状态拟人交互仿真技术，能够自然覆盖静默、聆听和说话三种状态，并在面部微表情与肢体动作上实现精准调控。系统支持用户随时打断并无缝接话，彻底消除了传统数字人的机械感。此外，数字人还能实时生成不重样的歌舞表演，并在复杂的多角色策略游戏中展现出优秀的协同驱动能力，大幅提升了场景沉浸感。

底层技术方面，该模型有效攻克了AI数字人行业的三大核心技术壁垒。在时间维度上，研发团队采用三阶段训练策略，有效解决了画面累积误差问题，确保数字人长时间运行不漂移、不走样。在交互维度上，突破了传统单向输出限制，原生支持弹幕与语音双链路并行的全双工实时对话。在部署维度上，通过全链路工程与算子优化，在降低算力开销的同时，实现了极低延迟的实时推理。

虎牙VAM 1.0凭借长时间运行稳定、交互节奏精准、响应速度快捷的核心优势，确立了其作为实时交互主体的技术领先地位。 这一突破不仅得益于底层算法的创新，更归功于平台深耕直播领域多年的丰富场景积淀。真实的互动需求倒逼技术不断进行深度适配与迭代。AI技术正全面从外挂工具转变为直播系统的核心组成部分，为构建下一代实时交互内容生态奠定了坚实基础。