图像生成

邱锡鹏团队新作：让机器人学会「察言观色」

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架，突破了传统视觉-语言-动作（VLA）模型的局限，通过全模态整合实现了机器人对隐含意...

AIGC动态

6个月前

当前AI生成的视觉内容虽然炫酷，但在细节理解和空间关系处理上仍存在明显缺陷。例如，要求生成「穿红外套的猫站在蓝色跑车左边」或搜索「引擎盖有鸟粪的特斯...

AIGC动态

6个月前

美团LongCat团队发布了5600亿参数的开源全模态模型LongCat-Flash-Omni，该模型能够实现毫秒级的实时音频-视觉交互。其核心是一个端到端的全模态架构，能够接...

AIGC动态

6个月前

风投领域正经历前所未有的资本涌入人工智能初创企业，截至2025年10月已有近2000亿美元投入该领域。这一现象标志着AI产业进入全新发展阶段，全球范围内涌现出...

AIGC动态

6个月前

生成式AI技术虽快速发展，但视频创作仍面临高门槛问题。当前流程涉及脚本撰写、画面生成、配音剪辑等多个环节，依赖不同软件工具，导致普通创作者需承担较高...

AI-Agent

6个月前

第十三届国际图象图形学学术会议（ICIG 2025）于2025年10月31日至11月2日在徐州成功举办。会议由中国图象图形学学会主办，中国矿业大学承办，南京理工大学协...

AIGC动态

6个月前

昆仑万维近日推出全新升级的AI视频创作平台SkyReels，标志着多模态内容生成技术进入新阶段。该平台通过'模型+平台'双轨模式，集成图像、音频、视频、数字人等...

AI-Agent

6个月前

香港大学与阶跃星辰的研究团队开发了一种名为VFMTok的新方法，通过利用预训练的视觉基础模型（如DINOv2）作为高效的视觉分词器，显著提升了图像生成的速度和...

AIGC动态

6个月前

美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力，在Omni-Bench等综合性基准测试中超越同类开源模型，达到与闭源Gemini-2.5-Pro相当的...

AIGC动态

6个月前

人工智能领域迎来重大突破，北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练，采用自回归架构实现多模态理解与生...

AIGC动态

6个月前