标签:扩散模型
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减
传统搜索Agent普遍采用ReAct框架,执行流程为严格串行的想→调工具→等结果→再想→再调工具→再等……,每轮“思考”与“调用工具”环节完全串行,等待搜索引擎返回结果...
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
大模型通往现实世界的“最后三公里”中,Agent已成为最具代表性的技术路径。当前行业共识已从单纯追求“答对问题”转向更复杂的评估维度:能否以最短路径、最少交...
大道至简,何恺明团队新作pMF开启像素级「无潜、单步」生成范式
何恺明团队的最新研究提出了一种名为pixel MeanFlow(pMF)的创新框架,旨在解决当前主流扩散模型与流匹配模型在多步采样和潜空间依赖上的局限性。该框架能够...
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
2026年标志着大型语言模型(LLM)发展进入以效率优化和混合架构为主导的新阶段。尽管Transformer架构仍是当前AI生态系统的基石,但行业焦点已从单纯扩大参数...
自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶
复旦大学与引望智能科技联合提出的WAM-Diff框架,在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩...
加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁
TurboDiffusion技术通过稀疏注意力、蒸馏量化和硬件优化,将视频生成速度提升至实时水平。传统视频扩散模型因计算复杂度高而效率低下,尤其在处理时间连贯性...
谢赛宁REPA得到大幅改进,只需不到4行代码
反直觉的发现颠覆了传统认知:驱动生成模型性能的关键因素并非预训练视觉编码器的全局语义信息(如ImageNet分类准确率),而是其提取的空间结构特征。一项由A...
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
华为发布openPangu-R-7B-Diffusion模型,标志着文本生成领域从自回归向扩散语言模型的重要范式转变。该模型基于openPangu-Embedded-7B进行少量数据续训练,成...
何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效
麻省理工学院何恺明团队发布了一项颠覆性研究,直指当前扩散生成模型的核心痛点。研究指出主流模型实际上并没有在做去噪工作,回归最原始的洁净数据预测才是...
视觉生成的另一条路:Infinity 自回归架构的原理与实践
以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...



