标签:多模态模型
10B超越Gemini-2.5-Pro!阶跃星辰端侧多模态天花板开源
阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中,...
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉...
超前布局协和10年,这家国产AI「三冠王」终于藏不住了
医疗AI正从工具蜕变为临床协助者,云知声的山海·知医大模型5.0在权威医疗评测MedBench4.0中斩获大语言模型、多模态模型和智能体评测「三冠王」。这一成就标志...
MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV
上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量...
实测可灵O1,AI视频界的Banana也来了。
可灵O1的推出标志着AI视频领域进入多模态大一统时代。这款全新视频大模型整合了参考生视频、文生视频、首尾帧生视频等六大核心功能,首次实现通过自然语言指...
Google 首席 AI 架构师:Gemini 逆风翻盘的18个关键
DeepMind CTO Koray Kavukcuoglu在访谈中罕见披露了Google在AI领域的真实处境:两年前曾'远远落后',如今通过系统性重构实现追赶。这一转变始于对落后状态的...
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
寒武纪项目的最新成果Cambrian-S引起了广泛关注,这一模型专注于解决人工智能领域的核心问题:让AI真正学会感知世界。不同于传统硅基芯片研发,该团队将重点...
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
谷歌发布最新AI模型Gemini 3,标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1...
谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场
Yann LeCun、李飞飞和谢赛宁联合发表的论文《Cambrian-S:迈向视频中的空间超感知》提出了一种突破性观点:当前基于大语言模型(LLM)的AI技术存在根本性缺陷...
美团AI新品,专为程序员配送:不挑Python还是C++
美团近期推出了一款名为Meituan CatPaw的AI IDE编程工具,旨在通过Agent驱动编程体验革新,帮助开发者提升效率。该工具目前免费开放,支持多种主流编程语言,...




