全球首个自主进化多模态MoE震撼登场！写真视频击败Sora，人大系团队自研底座VDT

AI-Agent2年前 (2024)发布 AIera

3,422 0 0

全球首个自主进化多模态MoE震撼登场！写真视频击败Sora，人大系团队自研底座VDT

文章摘要

智子引擎公司在中关村论坛通用人工智能平行论坛上发布了全新的多模态大模型Awaker 1.0，标志着向通用人工智能（AGI）迈出了重要一步。Awaker 1.0采用了业界首个真正自主更新的多模态大模型架构，具备在视觉生成方面超越Sora的能力，打破了大模型落地难的困境。

Awaker 1.0的多模态能力体现在其能够将视觉理解与视觉生成进行融合。在理解方面，Awaker 1.0与数字和现实世界交互，通过场景行为数据的反馈实现持续更新与训练。在生成方面，Awaker 1.0能够生成高质量的多模态内容，模拟现实世界，为理解侧模型提供训练数据。其自主更新能力使其适用于广泛的行业场景，解决复杂任务，如AI Agent、具身智能、综合治理和安防巡检等。

Awaker 1.0的MOE基座模型解决了多模态多任务预训练中的冲突问题，通过多任务MOE架构，继承了前代模型ChatImg的基础能力，并学习了多模态任务所需的独特能力。在多模态评测集上，Awaker 1.0在视觉问答和业务应用任务上超过了其他三个国内外最先进的多模态大模型，证明了多任务MOE架构的有效性。

结合具身智能，多模态大模型与具身智能的结合被认为是实现AGI的可行路径。Awaker 1.0的自主更新机制包括数据主动生成、模型反思评估和模型连续更新三大关键技术，使其参数能够实时持续更新，与智能设备结合，通过观察世界和产生动作意图，自动构建指令控制智能设备完成动作，从而获取训练数据进行自我更新。

VDT是智子引擎自主研发的类Sora视频生成底座，可以作为现实世界的模拟器。VDT的创新之处在于将Transformer技术应用于基于扩散的视频生成，展现了其在视频生成领域的巨大潜力。VDT的统一时空掩码建模机制使其能够处理多种视频生成任务，如无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等。VDT在Physion数据集上进行训练，成功模拟了物理过程，证明了Transformer架构可以学习到一定的物理规律。

智子引擎在写真视频生成任务上进行了深度探索，结合VDT和可控生成技术，取得了比Sora更好的写真视频生成质量，并在积极进行商业化探索。VDT未来将成为解决多模态大模型数据来源问题的得力工具，提高视觉数据生产的效率，为Awaker的自主更新提供助力。