何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

330 0 0

文章摘要

生成式人工智能领域正经历从扩散模型向流匹配范式的深刻转型。基于常微分方程路径的流匹配因其理论高效性，正成为突破算力瓶颈的核心方向。研究团队通过系统性工作从训练目标、架构及生成机制入手重构视觉基础框架。团队提出让生成网络直接在图像流形上预测目标像素，替代传统预测高维噪声的路径。该策略允许网络逼近自然分布，配合大尺寸注意力机制，无需潜空间压缩即可实现多分辨率原生生成。针对单步快速生成，研究重构均值流优化机制，将训练目标转换为解耦的瞬时速度损失以规避梯度震荡。同时引入灵活引导区间控制并将多模态条件转为独立标记参与联合计算，使模型在无教师蒸馏条件下达成极低的分布误差指标，验证了快速生成无需复杂蒸馏。

逆向近似映射的独立训练与中间层对齐监督，彻底打破了传统因果自回归解码的顺序限制。并行架构使单图推理耗时骤降数百倍并维持重建精度，归一化流框架借此摆脱工程落地障碍，实现效率与质量的同步跃升。在视觉表征与推理层面，研究同样挑战了行业默认的技术前提。将抽象规则推理重构为宽域画布上的端到端视觉翻译任务，结合测试期动态微调策略，小参数量纯视觉模型即可在规则泛化上对标人类认知水平。与此同时，大规模像素掩码重建配合自动化数据过滤机制，使传统像素监督方法在脱离潜空间压缩后仍保持卓越效能，并在多项底层视觉任务中证明其与主流潜空间方法的正面对抗能力。系列成果表明扩散框架的既有假设存在大量优化冗余，回归数据本征分布与简化底层数学路径已成为下一代视觉生成模型演进的明确方向。