图像生成
图像,绘画
美团新独立APP,点不了菜只能点AI
美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力,在Omni-Bench等综合性基准测试中超越同类开源模型,达到与闭源Gemini-2.5-Pro相当的...
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
人工智能领域迎来重大突破,北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练,采用自回归架构实现多模态理解与生...
可以彻底放弃 Photoshop 了。
Lovart最新推出的图层编辑功能标志着AI图像领域的重大突破,解决了长期以来AI生成图像难以精确修改的痛点。过去在业务场景中使用AI生成图像时,虽然能快速产...
本周AI项目推荐:VideoTutor、Articuler、Gambo、Sheet0…
近期AI应用领域涌现出一批创新项目,展现出行业发展的新动向。许多新产品明确对标已验证成功的成熟产品,如VideoTutor定位为'新多邻国',捏TA2.0打造AI版抖音...
原神LOL齐聚的Unity开发者大会,我看到了AI游戏的未来
在上海举行的2025 Unity开发者大会上,'AI+游戏'的融合趋势成为核心议题。Unity中国CEO张俊波强调,AI与游戏引擎的深度融合将全面释放创作潜力。数据显示,96...
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
智源研究院于2024年10月发布的悟界·Emu3是全球首个基于'Next-Token Prediction'的原生多模态世界模型,实现了图像、文本、视频的统一处理。一年后升级的Emu3....
一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到
一张包含浮动爱心的视错觉图片在网络上引发热议,被称为'新时代的图灵测试'。测试表明,人类能轻松识别这种错觉图像中的动态图形,而主流AI模型如ChatGPT、Ge...
语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
智源研究院发布的「悟界 EMU3.5」多模态世界大模型,标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下,多...
视觉生成的另一条路:Infinity 自回归架构的原理与实践
以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任...
Sora天才辍学生归来!OpenAI组建3人神秘小队,豪赌超级人工智能
Will Depue,这位00后的天才辍学生和Sora背后的核心贡献者之一,宣布重返OpenAI并组建了一个三人小组,目标是实现超级人工智能(ASI)。他与Troy Luhman和Eri...






