标签:多模态模型

智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式

智源研究院于2024年10月发布的悟界·Emu3是全球首个基于'Next-Token Prediction'的原生多模态世界模型,实现了图像、文本、视频的统一处理。一年后升级的Emu3....

语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」

智源研究院发布的「悟界 EMU3.5」多模态世界大模型,标志着人工智能从语言学习向多模态世界学习演进的新阶段。在当前大语言模型文本能力逐渐触顶的背景下,多...

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力

北京智源人工智能研究院发布了其多模态系列模型的最新力作——悟界・Emu3.5,被定义为“多模态世界大模型”。这一模型通过在超过10万亿的多模态Token上进行端到端...

字节用LLaVA + SAM-2抢先实现了SAM-3,用概念分割,无需位置标注

加州大学默塞德分校、字节跳动Seed团队、武汉大学和北京大学的研究人员成功将LLaVA和SAM-2两个AI模型整合,创造出名为Sa2VA的新型多模态系统。这一突破性成果...

万字硬核解读SAM 3:不止分割一切,它开始理解世界了

Meta最新的SAM 3模型在计算机视觉领域实现了重大突破,将分割模型从简单的视觉交互工具升级为能理解语义概念的视觉-语言多模态模型。该模型通过可提示概念分...

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

百度最新发布的PaddleOCR-VL模型在全球权威文档视觉语言理解基准OmniDocBench V1.5中以92.6分的综合成绩登顶榜首,成为首个在文本识别、公式识别、表格理解与...

阿里正式下场!成立机器人团队

阿里通义内部新成立了“机器人与具身智能团队”,由大语言模型负责人林俊旸领衔。该团队隶属于通义千问(Qwen),即阿里负责旗舰AI基础模型开发的核心部门。林...

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告发布,该模型在多方面表现出色,开源后广受好评。研究背景与创新突破多模态大模型发展面临...

77岁Hinton首度访华,周伯文高能交锋!17分钟尖峰对话震撼全场

77岁的Geoffrey Hinton首次访华,在与周伯文教授的17分钟对话中抛出震撼观点:当今多模态大模型已具备「意识」。这一论断基于他对人类认知局限的剖析——人们常...

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料

2025年上半年,AI开源领域的竞争聚焦于效率提升、多模态能力和智能体开发三大方向。参数规模不再是唯一追求,如何通过架构创新和训练方法优化实现“小模型强性...
1 2 3 4 9