标签:多模态AI

Physical AI 系列活动硅谷站!

Physical AI Meetup 于3月19日在硅谷Sunnyvale举办,聚焦全模态与端侧智能在物理世界中的落地实践,活动分为上午的主题分享圆桌与下午的实操工作坊两部分。上...

第二代AI预训练范式:预测下个物理状态

英伟达高级研究科学家Jim Fan近期提出,当前以大语言模型(LLM)为代表的第一代预训练范式存在局限性,尤其在应用于物理世界时表现不佳。他倡导转向第二代预...

刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源音视频生成模型MOVA,实现了真正意义上的'音画同出'。该模型能够生成长达8秒、最高720p分辨...

实测千问 App 生图、生视频功能:国产实用主义的突围

阿里近期在千问APP中接入了国内领先的AI生视频模型Wan 2.5和开源生图模型Qwen-Image 2511,并开放免费不限次使用,大幅降低了用户的使用门槛。Wan 2.5专注于1...

北大、字节、中科院自动化研究所等提出图像并行生成新范式

当前多模态AI领域存在一个反直觉现象:让模型在生成图像前进行文本推理,反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

北京智源人工智能研究院最新发布的悟界·Emu3.5标志着开源原生多模态世界模型的重大突破。该模型以34B参数量实现图、文、视频任务的统一处理,其核心突破在于...

苹果传统强项再发力,视觉领域三种模态终于统一

苹果虽在大模型领域表现不佳,但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点,Apple研究团队提出了ATOKEN(A Unified ...

年仅24岁、博士退学、项目平平,却签下2.5亿美元天价Offer?Meta的这波操作,全网看懵了

在 AI 军备竞赛日益激烈的背景下,Meta 为 24 岁的 AI 研究员 Matt Deitke 开出 2.5 亿美元薪酬包,刷新行业纪录。今年夏天,Meta 首席执行官马克·扎克伯格邀...

刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器

七月国产大模型开源成高频现象,各大厂商纷纷开源数十款模型,八月这一势头未减。昆仑万维在八月开启 Skywork AI 技术发布周,连续五天推出多个新模型,覆盖...

AI写代码新姿势:一个截图,代替千行代码

商汤科技在GDC全球开发者先锋大会上发布了办公小浣熊2.0和代码小浣熊2.0的升级版本,并推出开源框架LazyLLM及万象应用开发平台。办公小浣熊2.0通过融合多模态...
1 2 3