何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效

AIGC动态1小时前发布 AIGCOPEN
51 0 0
何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效

 

文章摘要


【关 键 词】 人工智能扩散模型计算机视觉机器学习神经网络

麻省理工学院何恺明团队发布了一项颠覆性研究,直指当前扩散生成模型的核心痛点。研究指出主流模型实际上并没有在做去噪工作,回归最原始的洁净数据预测才是高维像素生成的正解。何恺明作为计算机视觉领域的世界级科学家,其发明的残差神经网络ResNet解决了深度神经网络训练中的梯度消失难题,成为人工智能发展的里程碑。这项新研究再次展现了他对构建能理解复杂世界智能模型的执着追求。

扩散模型的预测目标已偏离去噪本质。生成式人工智能领域近年来被扩散模型彻底席卷,从DALL-E 3到Sora等震撼世界的应用背后,核心引擎几乎都是去噪扩散概率模型(DDPM)及其变体。然而研究发现,今天的去噪模型绝大多数并不直接输出去噪后的图像。在模型演进过程中,研究者发现让神经网络预测被添加到图像上的噪声比直接预测图像本身能获得更好的生成质量,这一发现迅速成为行业标准。虽然从数学公式推导上,知道噪声或速度就能反推出洁净图像,在理论上是等价的,但何恺明团队指出数学上的等价不代表学习难度上的等价。

流形假设揭示了预测目标选择的关键差异。在计算机视觉的高维空间中,自然图像并不是随机分布的,而是聚集在一个低维的流形上。洁净图像位于这个低维流形上,而噪声则弥漫在整个观测空间中。当我们在高维像素空间训练神经网络时,如果目标是预测噪声,模型就必须具备极高的容量,因为它需要记住并重建整个高维空间中的随机扰动信息。相反,如果让模型直接预测洁净图像,模型只需要学会将高维荒原上的点投影回低维流形上,这大大降低了任务难度。

精妙的玩具实验验证了维度诅咒的影响。研究团队设计了一个极其精妙的实验,直观展示了维度诅咒如何摧毁噪声预测模型。实验结果表明,当观测维度增加到512时,预测噪声和预测速度的模型彻底崩溃,输出结果变成了一团毫无意义的乱码。然而令人惊叹的是,直接预测洁净数据的模型在如此高维度情况下依然表现完美,准确地抓住了低维的螺旋结构。这个实验揭示了一个深刻的数学真理:在高维空间中,噪声的信息量随着维度增长而爆炸性增长,而洁净数据的信息量受限于其低维流形的本质。

极简架构JiT让像素级生成重获新生。基于理论发现,研究团队提出了一种极简的架构设计Just image Transformers(JiT)。它摒弃了分词器、层次化设计和额外损失函数,就是一个最朴素的Vision Transformer,直接作用于原始像素。JiT采用了非常激进的大图块尺寸,每个图块转化成的Token维度极高,但基于流形假设,这种维度的压缩不仅不是问题,反而可能是一种优势。实验结果表明,在预测洁净图像的设定下,JiT展现出了惊人的鲁棒性,在256×256分辨率下取得了约8.6的FID分数。

线性扩展能力打破计算成本壁垒。JiT架构通过解耦设计,展现出了优越的线性扩展能力。当图像分辨率提升时,JiT保持序列长度不变,按比例增大图块尺寸,使得计算量与低分辨率模型几乎持平。研究训练了从Base到Giga四种不同规模的模型,在ImageNet 512×512分辨率上,JiT-G/32模型达到了1.78的FID分数。JiT甚至挑战了1024×1024的超高分辨率,在这种设置下图块尺寸达到64 x 64,每个Token维度高达12288,但依然能够稳定训练并生成高质量图像。

这项研究标志着对扩散模型理解的一次深刻修正。何恺明团队的发现证明,通过正确地定义预测目标,神经网络完全有能力直接处理高维的原始数据。这种自包含的特性对于科学领域的应用具有无法估量的价值,可以无缝迁移到任何需要生成建模的领域。在AI模型变得越来越臃肿的今天,这项研究提醒我们:有时候阻碍前进的正是为解决问题而引入的复杂工具。噪声是高维的混乱,数据是低维的秩序,去噪即是求真。

原文和模型


【原文链接】 阅读原文 [ 4983字 | 20分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...