标签:视觉推理

DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

近期,深度求索在开启视觉能力灰度测试后,迅速发布并随后撤回了相关技术论述,其核心在于提出了视觉基元推理框架。传统大模型常依赖自然语言处理图像信息,...

去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理

来自国内外知名高等学府与合作实验室的人工智能专家团队,近期攻克了一项关键技术创新点。他们开发的新型架构彻底移除了图像编码至语义分析的像素级中转过程...

Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己

Meta近日正式发布了旗下MSL部门成立后的首款模型,这一战略举措象征着公司在人工智能领域经历重大路线调整后的全面转型。九个月前为扭转此前技术栈的被动局面...

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

开源视觉推理模型Top1,易主了。

编程支持成为另一亮点,结合Coding Plan服务展现出较高性价比。在复刻Linear官网案例时,模型通过视频输入实现了90%的页面还原度,但在Wispr Flow等复杂动效...

是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

智谱开源的 GLM - 4.5V 模型是一款极具实力的开源视觉推理模型,在多领域展现出卓越性能。- 超强视觉推理与图像识别:GLM - 4.5V 参加“图寻”游戏全球积分赛,...

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料

2025年上半年,AI开源领域的竞争聚焦于效率提升、多模态能力和智能体开发三大方向。参数规模不再是唯一追求,如何通过架构创新和训练方法优化实现“小模型强性...

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

卡内基梅隆大学(CMU)的研究团队针对公务员考试中的逻辑推理题,设计了一套名为VisualPuzzles的视觉推理基准测试,旨在评估多模态大模型的推理能力。该测试...

OpenAI深夜上线o3满血版和o4 mini – 依旧领先。

OpenAI在直播中正式发布了o3和o4-mini模型,取代了之前的o1、o3-mini和o3-mini-high。ChatGPT Plus、Pro和Team用户从即日起可以在模型选择器中看到这些新模型...

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI最新发布的满血版o3和o4-mini模型在多个领域展现了卓越的性能,尤其是在视觉推理和工具调用方面实现了重大突破。o3模型首次将图像推理融入思维链,能够...
1 2