京东卷出新高度！硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了

AIGC动态2小时前发布 almosthuman2014

56 0 0

文章摘要

京东在2026年GTC大会上正式迈入AI智能体应用的新阶段，其核心突破在于解决了长期困扰行业的数字人“躯壳”问题——即如何让AI智能体实现高表现力、长时长、自由态的实时交互。以往数字人受限于文本指令控制弱、多模态信号冲突及身份漂移等难题，难以支撑真实直播场景中的复杂动作与持续连贯性，但京东推出的JoyStreamer与JoyStreamer-Flash两大数字人大模型，显著打破该技术瓶颈。

该模型成功实现了分钟级、自由态、实时互动的数字人生成效果，并在arXiv上发表相关论文，性能全面超越当前SOTA模型。关键能力体现在三方面：一是超强文本控制力，能精准响应复杂指令并驱动全身动作；二是高保真唇形同步，在剧烈运动过程中依然保持口型与音频高度一致；三是稳定身份持久输出，可支持30秒以上长视频生成而无视觉错位或“站桩式”停滞现象。

技术上，京东团队创新性采用双教师DMD后训练机制，将音频教师与文本教师协同作用于模型优化中，在不增加额外数据的情况下，提升文本到动作的语义对齐效率。针对文本与音频控制模态之间的冲突问题，提出了“动态CFG调制策略”，使动作框架与唇部细节分别在生成早期与晚期优先执行，实现二者互不干扰。为应对身份漂移难题，设计了历史帧编码模块（FramePack）+伪最后一帧策略，通过引入参考图像锚定机制确保人物一致性。

在推理速度方面，JoyStreamer-Flash版本实现实时流式生成无限时长视频，达到30FPS帧率，并通过CausVid蒸馏、KV缓存加速与多GPU并行推理优化性能。测试表明，其GSB评分高达1.36与1.73，显著优于Omnihuman和KlingAvatar等竞品，证明其在文本遵从、唇形准确度及ID保持等多项指标上的优越性。

落地场景中，京东已将技术应用于自身电商直播体系，服务超7万家商家。尤其强调开放性和普惠性，数字人直播能力免费向中小商家开放，支持一键配置与复刻真人主播功能。新秀丽借助“直播间复刻”能力实现公域流量增长超60%，人均停留近2分钟，验证了其商业转化价值。

更深远的战略意义在于，京东坚持不追逐单纯参数规模，而是以效率、成本与性能平衡为重心推进大模型演进。例如JoyAI-LLM Flash仅480亿参数却仅激活3B算力，任务token消耗仅为竞品五分之一；大量业务反馈形成闭环数据飞轮，反哺模型迭代与实际能力提升。未来目标指向换装能力、跨主播互动及零幻觉生成等更高阶挑战。

京东AI的技术路线选择体现了务实主义哲学，正通过真实产业场景打磨技术，使其从“尝鲜工具”升级为拉动GMV的核心增长引擎。这场基于真实需求驱动的产业突围战，正在由“数字人”的成长所引领。