真可用！美团数字人模型开源，MV、电商等统统拿下

432 0 0

文章摘要

美团开源的数字人视频生成框架 LongCat-Video-Avatar 更新至1.5版本，在生成质量与推理效率上实现显著突破。该版本将音频编码器替换为 Whisper-Large，大幅提升了唇形动态的平滑度与自然感，有效解决了数字人视频中常见的唇形同步穿帮问题。同时，通过引入 DMD2 步数蒸馏技术，模型将推理过程压缩至8步，在维持视觉保真度的前提下大幅降低了推理成本，为服务端的灵活部署与商业化落地提供了有力支撑。该框架原生支持多种音视频生成任务，覆盖新闻播报、电商营销及动漫角色等广泛场景，展现出卓越的风格泛化能力。

在基于 EvalTalker 构建的大规模综合评测中，LongCat-Video-Avatar 1.5 凭借770名评估者的海量主观评分，在物理合理性、时间稳定性、身份一致性及音视频协调性四大核心维度上实现了全面领先，各项性能表现极为均衡。在用户偏好测试中，该模型对阵当前主流商业系统均取得显著胜率。针对不同应用场景，模型在单人场景中展现出极高的自然度与真实感，而在复杂的多人交互场景中，能够精准区分说话者与聆听者的状态，得分大幅领先同类产品。

此外，该版本在解决数字人视频常见痛点方面表现优异。其主体变形、背景变形及跳帧问题率均降至极低水平，特别是将长视频生成中易发的背景变形问题控制在个位数百分比，保障了画面的流畅性与稳定性。在音视频协调方面，面部与身体同步及唇形同步的问题率均低于对比模型，达到了当前行业的最优水平。LongCat-Video-Avatar 1.5 在显著提升生成效率的同时并未牺牲生成质量，在单人自然度、多人互动及长时序稳定性等商用关键维度上展现出强大的应用潜力，为开发者提供了高效的本地化数字人解决方案。