多模态模型 | 第 2 页

Gemini 3.0发布：从“工具辅助”到“主动代理”，谷歌做了这几点

谷歌发布最新AI模型Gemini 3，标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1...

AI-Agent

4个月前

谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场

Yann LeCun、李飞飞和谢赛宁联合发表的论文《Cambrian-S：迈向视频中的空间超感知》提出了一种突破性观点：当前基于大语言模型（LLM）的AI技术存在根本性缺陷...

AIGC动态

5个月前

美团AI新品，专为程序员配送：不挑Python还是C++

美团近期推出了一款名为Meituan CatPaw的AI IDE编程工具，旨在通过Agent驱动编程体验革新，帮助开发者提升效率。该工具目前免费开放，支持多种主流编程语言，...

AI-Agent

5个月前

成为具身智能“大脑”，多模态世界模型需要具备哪些能力？丨ToB产业观察

北京智源研究院最新发布的悟界·Emu3.5多模态世界大模型标志着人工智能技术的重大突破。这款参数量达34B的模型通过自研DiDA技术将推理速度提升20倍，并以'Next...

AIGC动态

5个月前

邱锡鹏团队新作：让机器人学会「察言观色」

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架，突破了传统视觉-语言-动作（VLA）模型的局限，通过全模态整合实现了机器人对隐含意...

AIGC动态

5个月前

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

当前AI生成的视觉内容虽然炫酷，但在细节理解和空间关系处理上仍存在明显缺陷。例如，要求生成「穿红外套的猫站在蓝色跑车左边」或搜索「引擎盖有鸟粪的特斯...

AIGC动态

5个月前

智源悟界·Emu3.5发布，开启“下一个状态预测”！王仲远：或开启第三个 Scaling 范式

智源研究院于2024年10月发布的悟界·Emu3是全球首个基于'Next-Token Prediction'的原生多模态世界模型，实现了图像、文本、视频的统一处理。一年后升级的Emu3....

AIGC动态

5个月前

语言模型之后，智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」

智源研究院发布的「悟界 EMU3.5」多模态世界大模型，标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下，多...

AIGC动态

5个月前

刚刚，智源悟界·Emu3.5登场，原生具备世界建模能力

北京智源人工智能研究院发布了其多模态系列模型的最新力作——悟界・Emu3.5，被定义为“多模态世界大模型”。这一模型通过在超过10万亿的多模态Token上进行端到端...

AIGC动态

5个月前

字节用LLaVA + SAM-2抢先实现了SAM-3，用概念分割，无需位置标注

加州大学默塞德分校、字节跳动Seed团队、武汉大学和北京大学的研究人员成功将LLaVA和SAM-2两个AI模型整合，创造出名为Sa2VA的新型多模态系统。这一突破性成果...

AIGC动态

5个月前

标签：多模态模型

Gemini 3.0发布：从“工具辅助”到“主动代理”，谷歌做了这几点

谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场

美团AI新品，专为程序员配送：不挑Python还是C++

成为具身智能“大脑”，多模态世界模型需要具备哪些能力？丨ToB产业观察

邱锡鹏团队新作：让机器人学会「察言观色」

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

智源悟界·Emu3.5发布，开启“下一个状态预测”！王仲远：或开启第三个 Scaling 范式

语言模型之后，智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」

刚刚，智源悟界·Emu3.5登场，原生具备世界建模能力

字节用LLaVA + SAM-2抢先实现了SAM-3，用概念分割，无需位置标注

热门网址

标签：多模态模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址