标签:视觉语言模型

视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%

加州大学伯克利分校团队提出了一种名为视觉思维链(CoVT)的全新架构,旨在解决多模态大模型在处理视觉信息时被迫将其翻译成文本的局限性。人类通过视觉信号...

VLM 实现 10%的精度提高,13.1倍加速!纽约大学新算法让视觉语言模型更小、更快、更准确

纽约大学的研究团队通过创新的QSVD方法,为视觉语言模型(VLM)的效率提升带来了突破性进展。该方法在普通GPU上实现了高达13.1倍的运行速度提升,同时保持模...

中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动

中科院自动化所、清华大学与GigaAI联合发布了视觉-语言-行动(VLA)模型的R1推理版本,该模型通过引入思维链机制和强化学习策略,显著提升了机器人在复杂环境...

自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥

第8届机器人学习大会(CoRL)于2024年11月6日至9日在德国慕尼黑举办,聚焦机器人学习领域的最新研究进展。会议吸引了超过1000名参与者,共收到671篇投稿,其...

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o

李飞飞团队在机器人技术领域取得了显著进展,提出了一种名为关系关键点约束(ReKep)的新方法,该方法通过将任务分解为关键点序列来实现机器人操作任务的约束...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多模态任务的识别能力。...

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

摘要:谷歌的最新研究成果ScreenAI是一个强大的视觉语言模型,它在理解和操作用户界面方面取得了显著进展。这个模型能够执行屏幕问答、内容摘要等多种任务,...