挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

365 0 0

文章摘要

字节商业化技术团队近期提出全新视觉生成架构生成精炼网络，为图像与视频自动化创作开辟出独立于主流扩散模型与自回归模型的第三种技术路线。该架构创新性采用类人类的边画边改范式，通过在生成过程中持续迭代优化，从根本上解决了传统算法难以实时纠错的核心痛点。在底层设计上，系统内置层次二叉树量化模块，能够将连续特征转化为多级二进制标签，实现接近无损的信息压缩与统一建模。配合全局精炼机制，模型从初始随机状态出发，依据全局上下文不断调整局部内容，彻底阻断误差传播链条。此外，复杂度感知采样策略通过实时评估画面信息熵动态规划推理轮次，实现计算算力资源的按需分配。

多项权威基准测试全面印证了该架构的技术优越性，在图像重建、文本驱动视觉内容及视频动态生成等关键任务中均刷新行业最高纪录。凭借高效的架构设计，系统在仅使用中等规模参数的前提下，生成质量与物理规律还原度大幅超越同类竞品，并可稳定输出清晰流畅的长时序动态画面。实验数据明确指出，新型范式不仅大幅提升计算效率与生成精度的平衡能力，更验证了纯离散表征在复杂视听任务中的巨大潜力。此项技术突破有效填补了连续扩散机制与离散自回归逻辑之间的架构鸿沟，为底层人工智能模型提供了具备强扩展能力的全新生成路径。