视觉语言 | 学习AIGC

招生信息 | 北京大学智能学院钟亦武老师多模态推理/具身智能方向

北京大学智能学院以构建通用人工智能理论与系统为总体目标，通过革新与融通计算机视觉、自然语言处理、机器学习、认知推理、机器人学与多智能体六大关键领域...

AIGC动态

4小时前

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型，专为OCR任务设计，参数规模仅1B，兼具轻量与高性能特性。该模型在文本检测识别、复杂...

AIGC动态

4个月前

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构，仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

AIGC动态

4个月前

360发布全球最强视觉语言对齐模型！榜单全面领先！

360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破，首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...

AIGC动态

4个月前

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生，继承了扩散语言模型高速且可控的优点，实验表现出色。当前流行的 VLM 多基于自回归（AR）的大型语言模型（L...

AIGC动态

10个月前

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来，视觉语言模型（VLMs）在多模态AI领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签，难以适应大规...

AIGC动态

11个月前

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

近期AI社区热议的Scaling Law是否撞墙问题中，一个论点是AI即将耗尽现有高质量数据。对此，卡内基梅隆大学和Google DeepMind的研究发现，利用低质量数据和反...

AIGC动态

1年前 (2025)

控制电脑手机的智能体人人都能造，微软开源OmniParser

近期，大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet，荣耀MagicOS 9.0推出了全局智能...

AIGC动态

1年前 (2024)

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型，该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据，而无需依赖扩散模型或组合方...

AIGC动态

1年前 (2024)

OpenAI大模型上身机器人，原速演示炸场！

这篇文章介绍了一款名为Figure 01的机器人，它是由OpenAI大模型加持的，具备听、说、动作灵活等功能。机器人可以描述眼前的场景并做出相应反应，比如听到人类...

AIGC动态

2年前 (2024)

标签：视觉语言

招生信息 | 北京大学智能学院钟亦武老师多模态推理/具身智能方向

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

360发布全球最强视觉语言对齐模型！榜单全面领先！

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

控制电脑手机的智能体人人都能造，微软开源OmniParser

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

OpenAI大模型上身机器人，原速演示炸场！

热门网址

标签：视觉语言

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址