图像生成
图像,绘画
更少的token生成更好的图!香港大学联合阶跃星辰等让AI绘画真正理解了再画
香港大学与阶跃星辰的研究团队开发了一种名为VFMTok的新方法,通过利用预训练的视觉基础模型(如DINOv2)作为高效的视觉分词器,显著提升了图像生成的速度和...
美团新独立APP,点不了菜只能点AI
美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力,在Omni-Bench等综合性基准测试中超越同类开源模型,达到与闭源Gemini-2.5-Pro相当的...
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
人工智能领域迎来重大突破,北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练,采用自回归架构实现多模态理解与生...
可以彻底放弃 Photoshop 了。
Lovart最新推出的图层编辑功能标志着AI图像领域的重大突破,解决了长期以来AI生成图像难以精确修改的痛点。过去在业务场景中使用AI生成图像时,虽然能快速产...
本周AI项目推荐:VideoTutor、Articuler、Gambo、Sheet0…
近期AI应用领域涌现出一批创新项目,展现出行业发展的新动向。许多新产品明确对标已验证成功的成熟产品,如VideoTutor定位为'新多邻国',捏TA2.0打造AI版抖音...
原神LOL齐聚的Unity开发者大会,我看到了AI游戏的未来
在上海举行的2025 Unity开发者大会上,'AI+游戏'的融合趋势成为核心议题。Unity中国CEO张俊波强调,AI与游戏引擎的深度融合将全面释放创作潜力。数据显示,96...
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
智源研究院于2024年10月发布的悟界·Emu3是全球首个基于'Next-Token Prediction'的原生多模态世界模型,实现了图像、文本、视频的统一处理。一年后升级的Emu3....
一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到
一张包含浮动爱心的视错觉图片在网络上引发热议,被称为'新时代的图灵测试'。测试表明,人类能轻松识别这种错觉图像中的动态图形,而主流AI模型如ChatGPT、Ge...
语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
智源研究院发布的「悟界 EMU3.5」多模态世界大模型,标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下,多...
视觉生成的另一条路:Infinity 自回归架构的原理与实践
以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...



