多模态AI | 学习AIGC

全网热议的GPT image 2平替？不止是信息图，它让连续的图文创作一步到位

商汤发布的SenseNova U1多模态模型通过底层架构重构，有效解决了传统AI生图工具在文字渲染、版式控制与视觉一致性上的核心痛点。该系列采用NEO-Unify基础架构...

AIGC动态

2个月前

人跑光了，AI视频炸了！马斯克狂发推：Grok Imagine三金封神

Grok Imagine在DesignArena平台的三项核心视频任务中斩获Elo评分第一，分别以1337分、1298分和1291分领先视频生成竞技场、图像转视频及视频编辑类别，显著超...

AIGC动态

3个月前

手机版的 OpenClaw 来了，比豆包手机还神。

该产品由百度智能云团队推出，命名为RedClaw（原名红手指 Operator），核心目标是实现对移动端App的自动化操作，其技术路径区别于端侧方案（如豆包手机），采...

AI-Agent

3个月前

Physical AI 系列活动硅谷站！

Physical AI Meetup 于3月19日在硅谷Sunnyvale举办，聚焦全模态与端侧智能在物理世界中的落地实践，活动分为上午的主题分享圆桌与下午的实操工作坊两部分。上...

AI-Agent

3个月前

第二代AI预训练范式：预测下个物理状态

英伟达高级研究科学家Jim Fan近期提出，当前以大语言模型（LLM）为代表的第一代预训练范式存在局限性，尤其在应用于物理世界时表现不佳。他倡导转向第二代预...

AIGC动态

4个月前

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源音视频生成模型MOVA，实现了真正意义上的'音画同出'。该模型能够生成长达8秒、最高720p分辨...

AIGC动态

5个月前

实测千问 App 生图、生视频功能：国产实用主义的突围

阿里近期在千问APP中接入了国内领先的AI生视频模型Wan 2.5和开源生图模型Qwen-Image 2511，并开放免费不限次使用，大幅降低了用户的使用门槛。Wan 2.5专注于1...

AIGC动态

7个月前

北大、字节、中科院自动化研究所等提出图像并行生成新范式

当前多模态AI领域存在一个反直觉现象：让模型在生成图像前进行文本推理，反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...

AIGC动态

7个月前

世界模型有了开源基座Emu3.5！拿下多模态SOTA，性能超越Nano Banana

北京智源人工智能研究院最新发布的悟界·Emu3.5标志着开源原生多模态世界模型的重大突破。该模型以34B参数量实现图、文、视频任务的统一处理，其核心突破在于...

AIGC动态

8个月前

苹果传统强项再发力，视觉领域三种模态终于统一

苹果虽在大模型领域表现不佳，但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点，Apple研究团队提出了ATOKEN（A Unified ...

AIGC动态

9个月前

标签：多模态AI

全网热议的GPT image 2平替？不止是信息图，它让连续的图文创作一步到位

人跑光了，AI视频炸了！马斯克狂发推：Grok Imagine三金封神

手机版的 OpenClaw 来了，比豆包手机还神。

Physical AI 系列活动硅谷站！

第二代AI预训练范式：预测下个物理状态

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

实测千问 App 生图、生视频功能：国产实用主义的突围

北大、字节、中科院自动化研究所等提出图像并行生成新范式

世界模型有了开源基座Emu3.5！拿下多模态SOTA，性能超越Nano Banana

苹果传统强项再发力，视觉领域三种模态终于统一

热门网址

标签：多模态AI

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址