终于来啦！Stable Diffusion 3将在6月12日正式开源

AIGC动态2年前 (2024)发布 AIGCOPEN

3,715 0 0

文章摘要

【关键词】 AIGC、开源模型、Stable Diffusion、技术创新、商业限制

在人工智能生成内容（AIGC）领域，Stable Diffusion模型由开源大模型平台Stability AI开发，一直备受关注。6月3日，Stability AI的联合首席执行官Christian Laforte在AMD的产品发布会上宣布，新一代的文生图模型Stable Diffusion 3将于6月12日在Hugging Face开源其权重。此次开源的是优化后的Medium版本，拥有20亿参数，相较于前代，在照片真实感、样式、图片质量和算力消耗上都有显著提升。

Stable Diffusion 3被看作是闭源产品Midjourney和DALL·E 3的有力竞争者，其架构已被全球数百万开发者采用，并在文生视频和3D模型中得以借鉴。尽管Stability AI曾经历管理层变动和财务危机的挑战，但开源Stable Diffusion 3的计划得以顺利进行。

新模型采用了与Sora相同的Diffusion Transformer架构，该架构结合了Diffusion模型和Transformer的优势，有效降低了预训练和推理对算力的需求，提升了文本语义理解、文字嵌入和图片样式的处理能力。此外，引入的噪声采样技术和优化的训练方法进一步提高了效率和性能。

Stable Diffusion 3的开源版本仅限于学术研究，禁止商业化用途。对于寻求商业化的开发者，Stability AI提供了会员服务，可使用包括Turbo在内的其他版本。这一举措展示了Stability AI在生成式AI领域的部署和开发方面的努力，并可能通过此举缩小与英伟达等竞争对手的差距。

通过Stable Diffusion 3生成的图片展示了其在场景创意和视觉表现上的潜力，如在教室场景中将学生描绘成有趣的鳄梨形象，以及描绘半透明猪、复古风青蛙和威严巨龙等独特视觉作品，体现了其在艺术创作和想象力激发上的应用价值。随着模型的正式开源，预计将进一步推动AIGC领域的创新与发展。