文章摘要
【关 键 词】 数字人、视频生成、美团开源、推理加速、唇形同步
美团开源的数字人视频生成框架 LongCat-Video-Avatar 更新至1.5版本,在生成质量与推理效率上实现显著突破。该版本将音频编码器替换为 Whisper-Large,大幅提升了唇形动态的平滑度与自然感,有效解决了数字人视频中常见的唇形同步穿帮问题。同时,通过引入 DMD2 步数蒸馏技术,模型将推理过程压缩至8步,在维持视觉保真度的前提下大幅降低了推理成本,为服务端的灵活部署与商业化落地提供了有力支撑。该框架原生支持多种音视频生成任务,覆盖新闻播报、电商营销及动漫角色等广泛场景,展现出卓越的风格泛化能力。
在基于 EvalTalker 构建的大规模综合评测中,LongCat-Video-Avatar 1.5 凭借770名评估者的海量主观评分,在物理合理性、时间稳定性、身份一致性及音视频协调性四大核心维度上实现了全面领先,各项性能表现极为均衡。在用户偏好测试中,该模型对阵当前主流商业系统均取得显著胜率。针对不同应用场景,模型在单人场景中展现出极高的自然度与真实感,而在复杂的多人交互场景中,能够精准区分说话者与聆听者的状态,得分大幅领先同类产品。
此外,该版本在解决数字人视频常见痛点方面表现优异。其主体变形、背景变形及跳帧问题率均降至极低水平,特别是将长视频生成中易发的背景变形问题控制在个位数百分比,保障了画面的流畅性与稳定性。在音视频协调方面,面部与身体同步及唇形同步的问题率均低于对比模型,达到了当前行业的最优水平。LongCat-Video-Avatar 1.5 在显著提升生成效率的同时并未牺牲生成质量,在单人自然度、多人互动及长时序稳定性等商用关键维度上展现出强大的应用潜力,为开发者提供了高效的本地化数字人解决方案。
原文和模型
【原文链接】 阅读原文 [ 1397字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.7-max
【摘要评分】 ★★☆☆☆



