性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马

AIGC动态2年前 (2024)发布 AIGCOPEN

3,658 0 0

文章摘要

FLUX.1是一个新兴的开源大语言模型（LLM）平台，由Robin Rombach创立，他在扩散模型领域具有权威地位。Robin曾领导全球知名的Stable Diffusion系列项目，后因Stability AI公司内部问题选择离开并成立FLUX.1。该平台已获得Andreessen Horowitz领投的3100万美元种子轮融资，显示出市场对其潜力的认可。

FLUX.1的基础架构基于Vision Transformer，并采用了流程匹配训练方法、旋转位置嵌入和并行注意层等技术，以提高模型性能和硬件利用效率。该平台拥有120亿参数，并发布了三个版本：Pro版、dev版和schnell版，分别针对不同使用场景和需求。

在性能方面，FLUX.1在文本语义还原、图片质量、动作一致性/连贯性、多样性等方面均优于Midjourney v6.0、DALL·E 3、SD3-Ultra等主流开闭源模型。特别是在文本嵌入图片方面，FLUX.1展现出更出色的表现。此外，FLUX.1团队还计划推出文生视频模型，与Sora、Gen-3、Luma等一线产品竞争。

FLUX.1生成的图片展示了其高质量的图像生成能力，包括魔幻森林大门、旧教室黑板、水下猫头鹰晚餐、维多利亚风格的蜘蛛茶会、女足球运动员、手风琴演奏者、巨大的黑森林蛋糕以及宇宙中的超人等场景。这些图片在细节、光影效果和创意方面都给人留下深刻印象。

市场对FLUX.1的反响非常积极，许多人对其一次性发布三个模型感到兴奋，并期待其未来的文生视频模型。FLUX.1的开源特性和强大的性能表现，有望推动AIGC领域的进一步发展，并为开发者和用户提供更多创新应用的可能性。

总之，FLUX.1作为一个新兴的开源大语言模型平台，凭借其创新的技术架构、卓越的性能表现和市场认可度，展现出巨大的发展潜力。其在图像生成领域的突破，以及未来在视频生成等领域的布局，有望为AIGC领域带来更多创新和价值。