标签:多模态AI

全网热议的GPT image 2平替?不止是信息图,它让连续的图文创作一步到位

商汤发布的SenseNova U1多模态模型通过底层架构重构,有效解决了传统AI生图工具在文字渲染、版式控制与视觉一致性上的核心痛点。该系列采用NEO-Unify基础架构...

人跑光了,AI视频炸了!马斯克狂发推:Grok Imagine三金封神

Grok Imagine在DesignArena平台的三项核心视频任务中斩获Elo评分第一,分别以1337分、1298分和1291分领先视频生成竞技场、图像转视频及视频编辑类别,显著超...

手机版的 OpenClaw 来了,比豆包手机还神。

该产品由百度智能云团队推出,命名为RedClaw(原名红手指 Operator),核心目标是实现对移动端App的自动化操作,其技术路径区别于端侧方案(如豆包手机),采...

Physical AI 系列活动硅谷站!

Physical AI Meetup 于3月19日在硅谷Sunnyvale举办,聚焦全模态与端侧智能在物理世界中的落地实践,活动分为上午的主题分享圆桌与下午的实操工作坊两部分。上...

第二代AI预训练范式:预测下个物理状态

英伟达高级研究科学家Jim Fan近期提出,当前以大语言模型(LLM)为代表的第一代预训练范式存在局限性,尤其在应用于物理世界时表现不佳。他倡导转向第二代预...

刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源音视频生成模型MOVA,实现了真正意义上的'音画同出'。该模型能够生成长达8秒、最高720p分辨...

实测千问 App 生图、生视频功能:国产实用主义的突围

阿里近期在千问APP中接入了国内领先的AI生视频模型Wan 2.5和开源生图模型Qwen-Image 2511,并开放免费不限次使用,大幅降低了用户的使用门槛。Wan 2.5专注于1...

北大、字节、中科院自动化研究所等提出图像并行生成新范式

当前多模态AI领域存在一个反直觉现象:让模型在生成图像前进行文本推理,反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

北京智源人工智能研究院最新发布的悟界·Emu3.5标志着开源原生多模态世界模型的重大突破。该模型以34B参数量实现图、文、视频任务的统一处理,其核心突破在于...

苹果传统强项再发力,视觉领域三种模态终于统一

苹果虽在大模型领域表现不佳,但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点,Apple研究团队提出了ATOKEN(A Unified ...
1 2 3