多模态AI | 学习AIGC

Physical AI 系列活动硅谷站！

Physical AI Meetup 于3月19日在硅谷Sunnyvale举办，聚焦全模态与端侧智能在物理世界中的落地实践，活动分为上午的主题分享圆桌与下午的实操工作坊两部分。上...

AI-Agent

4天前

第二代AI预训练范式：预测下个物理状态

英伟达高级研究科学家Jim Fan近期提出，当前以大语言模型（LLM）为代表的第一代预训练范式存在局限性，尤其在应用于物理世界时表现不佳。他倡导转向第二代预...

AIGC动态

1个月前

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源音视频生成模型MOVA，实现了真正意义上的'音画同出'。该模型能够生成长达8秒、最高720p分辨...

AIGC动态

2个月前

实测千问 App 生图、生视频功能：国产实用主义的突围

阿里近期在千问APP中接入了国内领先的AI生视频模型Wan 2.5和开源生图模型Qwen-Image 2511，并开放免费不限次使用，大幅降低了用户的使用门槛。Wan 2.5专注于1...

AIGC动态

3个月前

北大、字节、中科院自动化研究所等提出图像并行生成新范式

当前多模态AI领域存在一个反直觉现象：让模型在生成图像前进行文本推理，反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...

AIGC动态

4个月前

世界模型有了开源基座Emu3.5！拿下多模态SOTA，性能超越Nano Banana

北京智源人工智能研究院最新发布的悟界·Emu3.5标志着开源原生多模态世界模型的重大突破。该模型以34B参数量实现图、文、视频任务的统一处理，其核心突破在于...

AIGC动态

5个月前

苹果传统强项再发力，视觉领域三种模态终于统一

苹果虽在大模型领域表现不佳，但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点，Apple研究团队提出了ATOKEN（A Unified ...

AIGC动态

6个月前

年仅24岁、博士退学、项目平平，却签下2.5亿美元天价Offer？Meta的这波操作，全网看懵了

在 AI 军备竞赛日益激烈的背景下，Meta 为 24 岁的 AI 研究员 Matt Deitke 开出 2.5 亿美元薪酬包，刷新行业纪录。今年夏天，Meta 首席执行官马克·扎克伯格邀...

AI-Agent

7个月前

刚刚，全网最懂图文调研的智能体模型震撼上线，看完我直接卸了浏览器

七月国产大模型开源成高频现象，各大厂商纷纷开源数十款模型，八月这一势头未减。昆仑万维在八月开启 Skywork AI 技术发布周，连续五天推出多个新模型，覆盖...

AI-Agent

7个月前

AI写代码新姿势：一个截图，代替千行代码

商汤科技在GDC全球开发者先锋大会上发布了办公小浣熊2.0和代码小浣熊2.0的升级版本，并推出开源框架LazyLLM及万象应用开发平台。办公小浣熊2.0通过融合多模态...

AI-Agent

1年前 (2025)

标签：多模态AI

Physical AI 系列活动硅谷站！

第二代AI预训练范式：预测下个物理状态

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

实测千问 App 生图、生视频功能：国产实用主义的突围

北大、字节、中科院自动化研究所等提出图像并行生成新范式

世界模型有了开源基座Emu3.5！拿下多模态SOTA，性能超越Nano Banana

苹果传统强项再发力，视觉领域三种模态终于统一

年仅24岁、博士退学、项目平平，却签下2.5亿美元天价Offer？Meta的这波操作，全网看懵了

刚刚，全网最懂图文调研的智能体模型震撼上线，看完我直接卸了浏览器

AI写代码新姿势：一个截图，代替千行代码

热门网址

标签：多模态AI

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址