HiDream-O1-Image-1.5 刷新国产图像生成模型纪录：砍掉 VAE，是图像模型的未来吗？

53 0 0

文章摘要

智象未来发布的HiDream-O1-Image-1.5文生图模型在Artificial Analysis榜单上跃升至第三位，展现出全球视觉生成大模型第一梯队的竞争力。通过与竞品的八维盲测对比，该模型在复杂指令遵循、细节准确性以及中文文字渲染方面表现优异，能够提供稳定、高完成度的交付物，在标准测试下展现出极强的工程落地能力。

这种优势主要源于其引入的先推理后生成机制。该模型在生成管线内部嵌入了基于思维链的推理层，在扩散模型工作前先行梳理画面逻辑，将复杂的语义指令精准翻译为空间约束。这一机制有效解决了传统文本编码器在处理高信息密度指令时权重分配不均的问题，大幅提升了对多元素、复杂场景的理解深度与执行准确度。

在底层架构方面，HiDream-1.5采用了无VAE的像素级统一架构，直接砍掉了传统的图像压缩层。传统压缩层在编码过程中容易丢失高频细节和脆弱的文字信号，导致画面产生涂抹感或文字错乱。取消该层后，像素、文本和控制条件在同一空间内流转，实现了信息的无损传递，从而在长文本渲染和高频细节还原上取得显著领先，尤其有效解决了中文字符笔画丢失的痛点。

思维链推理层与无压缩架构的协同，构成了先理解再无损执行的完整链路，最大限度减少了从用户意图到最终图像生成过程中的语义与信息损耗。尽管该策略在推理延迟和计算效率上存在一定挑战，但通过蒸馏加速等技术得到了缓解。在商业化落地方面，智象未来采取双轨并行策略，通过开源轻量级版本培育开发者生态，同时以闭源高性能版本满足商业级的高质量交付需求，为图像生成技术的实际应用提供了务实路径。