标签:视觉生成

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

流匹配模型的后训练对齐长期面临严重的“跷跷板效应”,单一奖励强化学习虽能在孤立任务中逼近性能极限,却直接导致非目标领域能力发生剧烈退化;而混合奖励组...

帮大家总结了一下凌晨的Google I/O 2026开发者大会。

谷歌近期产品发布会全面展示了以人工智能为核心的技术演进与生态布局。此次发布的核心主线围绕模型能力迭代、智能体系统构建以及跨平台生态整合展开。在模型...

无需构造偏好对:TGO用标量反馈对齐视觉生成模型|ICML’26

生成模型的偏好对齐正在从传统的成对比较转向利用标量反馈的新阶段。过往主流算法依赖成对偏好数据进行训练,虽结构优雅且计算高效,但将真实场景中连续的多...

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

字节商业化技术团队近期提出全新视觉生成架构生成精炼网络,为图像与视频自动化创作开辟出独立于主流扩散模型与自回归模型的第三种技术路线。该架构创新性采...

美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?

LongCat-Next 是美团发布的一项多模态大模型里程碑式成果,其核心在于首次在纯离散框架下实现了与专用连续模型相当的细粒度视觉理解能力。该模型基于 LongCat...

视觉生成的另一条路:Infinity 自回归架构的原理与实践

以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...

对话阶跃星辰姜大昕:我们就是“多模态卷王”,这便是阶跃冲击AGI的方式

阶跃星辰是一家成立仅两年的大模型公司,已经发布了22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等多个模态,其中大多数为多模态模型。创始人...

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑!

阿里云旗下的视觉生成基座模型万相2.1(Wan)近日宣布开源,采用宽松的Apache2.0协议,公开了14B和1.3B两个参数规格的全部推理代码和权重。这一开源动作使得...

深度解读快手可图大模型的技术演进与应用探索

李岩,快手可图大模型团队负责人,在2024 AICon全球人工智能开发与应用大会上分享了可图大模型的研发进展和技术创新。可图大模型旨在成为最能理解中文的文生...

阿里发布AI生视频模型:通义万相走出了自己的“中国风”特色!

在云栖大会上,阿里巴巴展示了其最新的人工智能视频生成模型——通义万相。这是一款全自研的视觉生成大模型,采用Diffusion + Transformer架构,支持图像和视频...
1 2