标签:扩散模型

CVPR 2026|告别「一属性一训练」,美图&北交大提出统一属性编辑框架 All-in-One Slider

生成式AI在影像内容生产中面临语义高度纠缠的问题,导致在调整人物属性时容易破坏整体结构或改变其他特征。为实现对生成图像的可解释、细粒度及连续属性操纵...

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

谷歌近期发布了DiffusionGemma文本生成模型,该模型摒弃了传统的自回归逐Token生成方式,转而采用扩散模型架构。通过在包含256个Token的画布上从随机噪声出发...

谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快

谷歌近日推出了Gemma家族的新成员DiffusionGemma,这是一个探索文本扩散的实验性开源模型。该模型采用Apache 2.0许可证发布,是一个总规模为26B的混合专家模...

谷歌新文本生成模型每秒可处理上千Token;马斯克xAI落地首个企业级Agent;达里奥发表AI政策檄文,留给普通人的时间只剩两年丨硅谷大事件

AI底层技术路线与算力门槛正迎来显著突破。Google DeepMind开源的DiffusionGemma采用扩散模型进行文本生成,在相同算力下运行速度比传统自回归模型快四倍,标...

字节开源王炸Bernini!轻松拿捏各类视频编辑任务

Bernini团队发布并开源了一款将多模态大模型与扩散模型深度融合的统一视频生成与编辑框架。该框架通过物理分工理念,让多模态大模型担任语义规划师,基于DiT...

刚刚,谢赛宁团队放出第二代表征自编码器

传统变分自编码器在图像生成任务中逐渐显现出效率瓶颈,其潜在空间主要记录像素级物理特征而缺乏高层语义,导致扩散模型必须从零重复学习基础视觉常识。针对...

比肩Z-Image!手机上实时图像生成、编辑模型!字节开源

字节技术团队近期开源的DreamLite模型是一款参数量仅0.39B的统一设备端扩散架构。该核心设计首次在单一轻量化模型中同时承载文本到图像生成与文本引导的图像...

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

视觉人工智能领域的技术发展正经历从既定范式内性能堆叠向底层建模范式重构的关键转折。过去依赖的模型扩容与采样微调策略虽能短暂推升基准指标,但当前前沿...

清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026

实验验证环节构建于多尺度模型集群与分层评价体系之上,同步覆盖数据分布匹配度、跨模态语义一致性以及多维人类视觉偏好。测试数据表明,重构后的控制逻辑在...

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

当前生成式人工智能虽具备强大生成能力,但在稳定性与可控性方面仍面临挑战。扩散模型在不同生成阶段对条件信息的依赖程度存在差异,而传统方法默认引导强度...
1 2 3 8