标签:多模态模型

MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量...

实测可灵O1,AI视频界的Banana也来了。

可灵O1的推出标志着AI视频领域进入多模态大一统时代。这款全新视频大模型整合了参考生视频、文生视频、首尾帧生视频等六大核心功能,首次实现通过自然语言指...

Google 首席 AI 架构师:Gemini 逆风翻盘的18个关键

DeepMind CTO Koray Kavukcuoglu在访谈中罕见披露了Google在AI领域的真实处境:两年前曾'远远落后',如今通过系统性重构实现追赶。这一转变始于对落后状态的...

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

寒武纪项目的最新成果Cambrian-S引起了广泛关注,这一模型专注于解决人工智能领域的核心问题:让AI真正学会感知世界。不同于传统硅基芯片研发,该团队将重点...

Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点

谷歌发布最新AI模型Gemini 3,标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1...

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场

Yann LeCun、李飞飞和谢赛宁联合发表的论文《Cambrian-S:迈向视频中的空间超感知》提出了一种突破性观点:当前基于大语言模型(LLM)的AI技术存在根本性缺陷...

美团AI新品,专为程序员配送:不挑Python还是C++

美团近期推出了一款名为Meituan CatPaw的AI IDE编程工具,旨在通过Agent驱动编程体验革新,帮助开发者提升效率。该工具目前免费开放,支持多种主流编程语言,...

成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察

北京智源研究院最新发布的悟界·Emu3.5多模态世界大模型标志着人工智能技术的重大突破。这款参数量达34B的模型通过自研DiDA技术将推理速度提升20倍,并以'Next...

邱锡鹏团队新作:让机器人学会「察言观色」

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架,突破了传统视觉-语言-动作(VLA)模型的局限,通过全模态整合实现了机器人对隐含意...

中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型

当前AI生成的视觉内容虽然炫酷,但在细节理解和空间关系处理上仍存在明显缺陷。例如,要求生成「穿红外套的猫站在蓝色跑车左边」或搜索「引擎盖有鸟粪的特斯...
1 2 3 9