视觉推理 | 学习AIGC

Meta华人发布ATLAS，一个词搞定可泛化的视觉推理！

Meta AI与香港中文大学联合提出全新视觉推理范式ATLAS，仅凭一个离散的功能词元即可首次实现智能体推理与潜在视觉推理的高效统一。该架构彻底摒弃了外部工具...

AIGC动态

1个月前

DeepSeek首次有了视觉能力，技术论文却被它连夜删掉了

近期，深度求索在开启视觉能力灰度测试后，迅速发布并随后撤回了相关技术论述，其核心在于提出了视觉基元推理框架。传统大模型常依赖自然语言处理图像信息，...

AIGC动态

2个月前

去掉像素中介！上海交大让AI边看边想边画，用同一个“大脑”跨模态推理

来自国内外知名高等学府与合作实验室的人工智能专家团队，近期攻克了一项关键技术创新点。他们开发的新型架构彻底移除了图像编码至语义分析的像素级中转过程...

AIGC动态

3个月前

Meta发布Muse Spark：华人天团废墟重建，最恨Llama的果然是小扎自己

Meta近日正式发布了旗下MSL部门成立后的首款模型，这一战略举措象征着公司在人工智能领域经历重大路线调整后的全面转型。九个月前为扭转此前技术栈的被动局面...

AIGC动态

3个月前

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型，旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

AIGC动态

7个月前

开源视觉推理模型Top1，易主了。

编程支持成为另一亮点，结合Coding Plan服务展现出较高性价比。在复刻Linear官网案例时，模型通过视频输入实现了90%的页面还原度，但在Wispr Flow等复杂动效...

AIGC动态

7个月前

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

智谱开源的 GLM - 4.5V 模型是一款极具实力的开源视觉推理模型，在多领域展现出卓越性能。- 超强视觉推理与图像识别：GLM - 4.5V 参加“图寻”游戏全球积分赛，...

AI-Agent

11个月前

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

2025年上半年，AI开源领域的竞争聚焦于效率提升、多模态能力和智能体开发三大方向。参数规模不再是唯一追求，如何通过架构创新和训练方法优化实现“小模型强性...

AIGC动态

1年前 (2025)

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

卡内基梅隆大学（CMU）的研究团队针对公务员考试中的逻辑推理题，设计了一套名为VisualPuzzles的视觉推理基准测试，旨在评估多模态大模型的推理能力。该测试...

AIGC动态

1年前 (2025)

OpenAI深夜上线o3满血版和o4 mini – 依旧领先。

OpenAI在直播中正式发布了o3和o4-mini模型，取代了之前的o1、o3-mini和o3-mini-high。ChatGPT Plus、Pro和Team用户从即日起可以在模型选择器中看到这些新模型...

AIGC动态

1年前 (2025)

标签：视觉推理

Meta华人发布ATLAS，一个词搞定可泛化的视觉推理！

DeepSeek首次有了视觉能力，技术论文却被它连夜删掉了

去掉像素中介！上海交大让AI边看边想边画，用同一个“大脑”跨模态推理

Meta发布Muse Spark：华人天团废墟重建，最恨Llama的果然是小扎自己

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

开源视觉推理模型Top1，易主了。

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

OpenAI深夜上线o3满血版和o4 mini – 依旧领先。

热门网址

标签：视觉推理

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址