标签:多模态
“多模态方法无法实现AGI”
生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来,但这些模型并未真正捕捉到人类智能的本质。它们之所以出现,主要是因为它们能够有效地扩...
AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题
豆包大模型1.6作为国内首款多模态SOTA模型,在火山引擎原动力大会上正式亮相。该模型支持256k上下文长度,具备深度思考能力,并首次实现GUI操作功能,形成'视...
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
在2024年智源大会上,智源研究院发布了'悟界'系列大模型,标志着人工智能技术向物理世界探索的显著进展。原生多模态世界模型Emu3通过统一架构实现了文本、图...
超6.4亿次下载!智源发布具身大脑等五大新技术,王仲远:具身智能的淘汰赛还没开始
第七届智源大会于6月6日在北京召开,北京智源人工智能研究院发布了“悟界”系列大模型,标志着AI技术从数字世界向物理世界的加速迈进。这一系列包括原生多模态...
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
AI领域在2025年展现出跨越式发展态势,技术前沿已从单一模态理解扩展到对物理世界的系统性建模。第七届智源大会汇集全球顶尖学者与企业领袖,集中探讨了智能...
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
智源研究院与上海交通大学等机构联合发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解领域取得了显著进展。长视频理解是多模态大模型的关键能力...
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满
智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
检索增强技术在代码及多模态场景中发挥着重要作用,而向量模型是这一技术体系中的核心组成部分。近日,智源研究院联合多所高校研发了三款向量模型,包括代码...
多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满
智源研究院联合多所高校发布了三款向量模型,分别是BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot。这些模型在代码及多模态检索领域取得了显著成果,并在多个...