标签:视觉语言

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...

腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

360发布全球最强视觉语言对齐模型!榜单全面领先!

360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破,首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生,继承了扩散语言模型高速且可控的优点,实验表现出色。当前流行的 VLM 多基于自回归(AR)的大型语言模型(L...

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来,视觉语言模型(VLMs)在多模态AI领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签,难以适应大规...

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

近期AI社区热议的Scaling Law是否撞墙问题中,一个论点是AI即将耗尽现有高质量数据。对此,卡内基梅隆大学和Google DeepMind的研究发现,利用低质量数据和反...

控制电脑手机的智能体人人都能造,微软开源OmniParser

近期,大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet,荣耀MagicOS 9.0推出了全局智能...

Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...

OpenAI大模型上身机器人,原速演示炸场!

这篇文章介绍了一款名为Figure 01的机器人,它是由OpenAI大模型加持的,具备听、说、动作灵活等功能。机器人可以描述眼前的场景并做出相应反应,比如听到人类...

解读OpenAI Sora文生视频技术原理

OpenAI发布的Sora视频生成模型在AI领域引起了巨大轰动,被视为继ChatGPT之后又一次重要的技术突破。本文详细总结了Sora的关键技术和潜在应用,并与Google的Lu...