图像生成

更少的token生成更好的图！香港大学联合阶跃星辰等让AI绘画真正理解了再画

香港大学与阶跃星辰的研究团队开发了一种名为VFMTok的新方法，通过利用预训练的视觉基础模型（如DINOv2）作为高效的视觉分词器，显著提升了图像生成的速度和...

AIGC动态

3个月前

美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力，在Omni-Bench等综合性基准测试中超越同类开源模型，达到与闭源Gemini-2.5-Pro相当的...

AIGC动态

3个月前

人工智能领域迎来重大突破，北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练，采用自回归架构实现多模态理解与生...

AIGC动态

3个月前

Lovart最新推出的图层编辑功能标志着AI图像领域的重大突破，解决了长期以来AI生成图像难以精确修改的痛点。过去在业务场景中使用AI生成图像时，虽然能快速产...

AIGC动态

3个月前

近期AI应用领域涌现出一批创新项目，展现出行业发展的新动向。许多新产品明确对标已验证成功的成熟产品，如VideoTutor定位为'新多邻国'，捏TA2.0打造AI版抖音...

AI-Agent

3个月前

在上海举行的2025 Unity开发者大会上，'AI+游戏'的融合趋势成为核心议题。Unity中国CEO张俊波强调，AI与游戏引擎的深度融合将全面释放创作潜力。数据显示，96...

AIGC动态

3个月前

智源研究院于2024年10月发布的悟界·Emu3是全球首个基于'Next-Token Prediction'的原生多模态世界模型，实现了图像、文本、视频的统一处理。一年后升级的Emu3....

AIGC动态

3个月前

一张包含浮动爱心的视错觉图片在网络上引发热议，被称为'新时代的图灵测试'。测试表明，人类能轻松识别这种错觉图像中的动态图形，而主流AI模型如ChatGPT、Ge...

AIGC动态

3个月前

智源研究院发布的「悟界 EMU3.5」多模态世界大模型，标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下，多...

AIGC动态

3个月前

以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功，但在视觉生成领域，扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...

AIGC动态

3个月前