国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

AIGC动态2年前 (2024)发布 AIera

3,949 0 0

文章摘要

中国生数科技推出的Vidu 1.5模型，成为全球首个支持多主体一致性的多模态视频生成模型，颠覆了传统单点微调方法，标志着视频模型统一理解和生成的飞跃。Vidu 1.5能够将人、物、环境无缝融合到同一个视频中，生成时间不到30秒，展现了对上下文的深刻理解、记忆等能力，预示着视觉模型进入了全新的“上下文”时代，加速了通用人工智能（AGI）的到来。

Vidu 1.5在单主体100%精准控制方面实现了技术突破，能够精确控制每个细节，避免传统视频模型在复杂视角切换时产生的瑕疵。同时，Vidu 1.5能够实现多主体一致性，通过上传多个主体的图片，实现一致性控制，包括人物+道具+场景的无缝融合。此外，Vidu 1.5还能够融合不同主体特征，创造出全新的角色或物体。

Vidu 1.5的推出，得益于生数科技在多模态大模型领域的技术革新。Vidu采用了无微调大一统架构，通过视频数据的压缩获取智能，无需专门数据采集、标注、微调训练环节，一键直出高一致性视频。这一过程省去了“炼丹”环节，堪称“LoRA终结器”。Vidu 1.5的智能涌现效应，意味着视觉模型不仅能理解、能想象，还能在生成过程中进行记忆管理，成为AGI的一块重要拼图。