视觉语言 | 学习AIGC

把 GPT-4o 拉下神坛！星源智联合北大推出 RoboAgent，让 3B VLM 在未知场景跑出 94% 成功率

当前视觉语言模型在处理真实环境中的具身任务时，常常面临多轮交互、长程推理以及奖励信号稀疏等实操困境。为解决这一难题，北京大学与星源智团队共同提出了...

AI-Agent

3周前

雷峰网现场直击：ICRA 2026下周在维也纳开幕，中国力量站上C位

IEEE国际机器人与自动化会议（ICRA 2026）将于奥地利维也纳举行。本届大会投稿量与录用量均创历史新高，共收到4947篇投稿，录用1882篇论文，吸引86个国家和地...

AIGC动态

4周前

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

核心方法论依托两类以视觉为中心的动态划分策略实现。块划分依据地理象限强制切割局部信息流，扫描划分则依照预设顺序遍历全景轮廓分布。针对单向策略固有的...

AIGC动态

4周前

招生信息 | 北京大学智能学院钟亦武老师多模态推理/具身智能方向

北京大学智能学院以构建通用人工智能理论与系统为总体目标，通过革新与融通计算机视觉、自然语言处理、机器学习、认知推理、机器人学与多智能体六大关键领域...

AIGC动态

3个月前

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型，专为OCR任务设计，参数规模仅1B，兼具轻量与高性能特性。该模型在文本检测识别、复杂...

AIGC动态

7个月前

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构，仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

AIGC动态

7个月前

360发布全球最强视觉语言对齐模型！榜单全面领先！

360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破，首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...

AIGC动态

7个月前

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生，继承了扩散语言模型高速且可控的优点，实验表现出色。当前流行的 VLM 多基于自回归（AR）的大型语言模型（L...

AIGC动态

1年前 (2025)

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来，视觉语言模型（VLMs）在多模态AI领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签，难以适应大规...

AIGC动态

1年前 (2025)

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

近期AI社区热议的Scaling Law是否撞墙问题中，一个论点是AI即将耗尽现有高质量数据。对此，卡内基梅隆大学和Google DeepMind的研究发现，利用低质量数据和反...

AIGC动态

1年前 (2025)

标签：视觉语言

把 GPT-4o 拉下神坛！星源智联合北大推出 RoboAgent，让 3B VLM 在未知场景跑出 94% 成功率

雷峰网现场直击：ICRA 2026下周在维也纳开幕，中国力量站上C位

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

招生信息 | 北京大学智能学院钟亦武老师多模态推理/具身智能方向

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

360发布全球最强视觉语言对齐模型！榜单全面领先！

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

热门网址

标签：视觉语言

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址