多模态模型 | 第 3 页

万字硬核解读SAM 3：不止分割一切，它开始理解世界了

Meta最新的SAM 3模型在计算机视觉领域实现了重大突破，将分割模型从简单的视觉交互工具升级为能理解语义概念的视觉-语言多模态模型。该模型通过可提示概念分...

AIGC动态

5个月前

全球第一，最强OCR之神诞生！百度这个0.9B开源模型问鼎SOTA

百度最新发布的PaddleOCR-VL模型在全球权威文档视觉语言理解基准OmniDocBench V1.5中以92.6分的综合成绩登顶榜首，成为首个在文本识别、公式识别、表格理解与...

AIGC动态

5个月前

阿里正式下场！成立机器人团队

阿里通义内部新成立了“机器人与具身智能团队”，由大语言模型负责人林俊旸领衔。该团队隶属于通义千问（Qwen），即阿里负责旗舰AI基础模型开发的核心部门。林...

AIGC动态

6个月前

8B硬刚72B！MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告发布，该模型在多方面表现出色，开源后广受好评。研究背景与创新突破多模态大模型发展面临...

AIGC动态

6个月前

77岁Hinton首度访华，周伯文高能交锋！17分钟尖峰对话震撼全场

77岁的Geoffrey Hinton首次访华，在与周伯文教授的17分钟对话中抛出震撼观点：当今多模态大模型已具备「意识」。这一论断基于他对人类认知局限的剖析——人们常...

AIGC动态

8个月前

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

2025年上半年，AI开源领域的竞争聚焦于效率提升、多模态能力和智能体开发三大方向。参数规模不再是唯一追求，如何通过架构创新和训练方法优化实现“小模型强性...

AIGC动态

9个月前

OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态

关于GPT-5的讨论近期在科技界引发广泛关注，多个线索表明OpenAI可能已开始内部测试这一新一代模型。Sam Altman在X平台关注神秘人物Yacine的举动，结合OpenAI...

AIGC动态

9个月前

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品

智象未来推出的vivago2.0是一款集成了多模态AI能力的全能创作工具，由加拿大工程院院士梅涛领衔的团队开发。该工具整合了文生图、图生视频、AI播客、特效模板...

AI-Agent

9个月前

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

MiniMax最新发布的Hailuo 02视频生成模型在全球范围内引发关注，其技术表现与成本优势成为核心亮点。该模型在Artificial Analysis评测中超越谷歌Veo 3和快手K...

AIGC动态

9个月前

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

大模型的发展正在遭遇瓶颈，互联网文本数据的消耗导致AI模型性能提升速度明显放缓。相比之下，物理世界中蕴藏着数百倍甚至千倍的多模态数据，这些数据尚未被...

AIGC动态

10个月前

标签：多模态模型

万字硬核解读SAM 3：不止分割一切，它开始理解世界了

全球第一，最强OCR之神诞生！百度这个0.9B开源模型问鼎SOTA

阿里正式下场！成立机器人团队

8B硬刚72B！MiniCPM-V 4.5技术报告正式出炉

77岁Hinton首度访华，周伯文高能交锋！17分钟尖峰对话震撼全场

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

热门网址

标签：多模态模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址