腾讯混元文生图大模型开源：Sora 同架构，更懂中文

AIGC动态1年前 (2024)更新 Founder Park

2,612 0 0

文章摘要

腾讯最近开源了其混元文生图大模型，这是一个业内首个中文原生的 DiT(扩散模型与 Transformer)架构的文生图开源模型，具备中英文双语输入及理解的能力。混元文生图通过持续迭代，整体性能已达到国内领先水平，部分中文能力已接近 GPT-4。该模型支持多种视频生成能力，包括16秒视频生成，并已布局文/图生3D，可快速生成3D模型。混元文生图大模型已在广告、游戏等多个场景中得到应用，比如用于素材创作、商品合成等。

腾讯选择在当前阶段开源混元文生图，主要考虑到该模型已经相对成熟，同时业界也需要这样的开源模型。开源可以降低成本，避免重复研发，并且通过社区参与，可以加速模型迭代。混元文生图采用 DiT 架构，相较于之前的 Unet 架构，扩展性和天花板更高。腾讯后续还会考虑将其他模型开源。混元文生图在中文语义理解和表达能力上具有优势，评估显示其在多个维度上处于领先。针对训练数据，腾讯会持续扩充数据量，以提升模型性能。在应用场景上，腾讯针对社交、游戏、广告等不同场景进行了定制化开发。

目前混元文生图在视频生成上的成熟度尚不如文本和图像，主要难点在于生成高质感视频的计算资源消耗大。未来混元文生图团队会继续优化模型结构，提升生成效率和质量，并解决不同模态之间的对齐问题。总体来说，混元文生图的推出标志着腾讯在人工智能领域的重要进展，并为业界提供了高质量的开源模型，有望推动人工智能技术在我国的发展。