标签:扩散模型

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

2026年标志着大型语言模型(LLM)发展进入以效率优化和混合架构为主导的新阶段。尽管Transformer架构仍是当前AI生态系统的基石,但行业焦点已从单纯扩大参数...

自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

复旦大学与引望智能科技联合提出的WAM-Diff框架,在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩...

加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁

TurboDiffusion技术通过稀疏注意力、蒸馏量化和硬件优化,将视频生成速度提升至实时水平。传统视频扩散模型因计算复杂度高而效率低下,尤其在处理时间连贯性...

谢赛宁REPA得到大幅改进,只需不到4行代码

反直觉的发现颠覆了传统认知:驱动生成模型性能的关键因素并非预训练视觉编码器的全局语义信息(如ImageNet分类准确率),而是其提取的空间结构特征。一项由A...

华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」

华为发布openPangu-R-7B-Diffusion模型,标志着文本生成领域从自回归向扩散语言模型的重要范式转变。该模型基于openPangu-Embedded-7B进行少量数据续训练,成...

何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效

麻省理工学院何恺明团队发布了一项颠覆性研究,直指当前扩散生成模型的核心痛点。研究指出主流模型实际上并没有在做去噪工作,回归最原始的洁净数据预测才是...

视觉生成的另一条路:Infinity 自回归架构的原理与实践

以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...

长文本生成迎来新突破:拓元智慧推出 DrDiff ,实现效率与质量双提升

DrDiff框架通过动态资源调度机制,解决了长文本生成中效率与质量难以兼得的根本性挑战。该框架由拓元智慧团队联合中山大学、阿里巴巴及Snap Inc的研究团队开...

谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束

谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。...

蚂蚁dInfer框架,让扩散大语言模型推理速度再飙10倍,相同模型性能下超越自回归模型

蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer,旨在解决扩散模型在推理效率上的瓶颈问题。长期以来,自回归模型在自然语言处理领域占据主导地位...
1 2 3 7