标签:视觉语言

把 GPT-4o 拉下神坛!星源智联合北大推出 RoboAgent,让 3B VLM 在未知场景跑出 94% 成功率

当前视觉语言模型在处理真实环境中的具身任务时,常常面临多轮交互、长程推理以及奖励信号稀疏等实操困境。为解决这一难题,北京大学与星源智团队共同提出了...

雷峰网现场直击:ICRA 2026下周在维也纳开幕,中国力量站上C位

IEEE国际机器人与自动化会议(ICRA 2026)将于奥地利维也纳举行。本届大会投稿量与录用量均创历史新高,共收到4947篇投稿,录用1882篇论文,吸引86个国家和地...

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

核心方法论依托两类以视觉为中心的动态划分策略实现。块划分依据地理象限强制切割局部信息流,扫描划分则依照预设顺序遍历全景轮廓分布。针对单向策略固有的...

招生信息 | 北京大学智能学院钟亦武老师多模态推理/具身智能方向

北京大学智能学院以构建通用人工智能理论与系统为总体目标,通过革新与融通计算机视觉、自然语言处理、机器学习、认知推理、机器人学与多智能体六大关键领域...

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...

腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

360发布全球最强视觉语言对齐模型!榜单全面领先!

360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破,首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生,继承了扩散语言模型高速且可控的优点,实验表现出色。当前流行的 VLM 多基于自回归(AR)的大型语言模型(L...

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来,视觉语言模型(VLMs)在多模态AI领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签,难以适应大规...

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

近期AI社区热议的Scaling Law是否撞墙问题中,一个论点是AI即将耗尽现有高质量数据。对此,卡内基梅隆大学和Google DeepMind的研究发现,利用低质量数据和反...
1 2