标签:基准测试

中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026

现实世界中多智能体协作面临无法频繁试错的限制,离线强化学习成为重要方向。然而从单智能体转向多智能体时,系统需在反馈有限条件下学会协作,面临奖励稀疏...

你敢把「龙虾」放在手机上跑吗?手机 Agent 离落地还差一道「隐私关」

香港中文大学深圳分校 Freedoms AI 团队联合腾讯混合大视觉大模型等多项合作研究推出了一个新的测评基准项目名为 My Phone Bench该系统专门用于系统化衡量手...

顶级模型得分低于1%:ARC-AGI-3全新人机较量,揭开智能体真实水平

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色,但其“智能”常源...

五百行代码打造SOTA视觉智能体!UniPat AI最新开源

SWE-Vision是一种极简的视觉智能体框架,旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现,尽管当前多模态大模型在编程能...

哪个模型最适合“养虾”?国产MiniMax-M2.1和Kimi-K2.5杀疯了

针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生,获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据,评测各家...

国产具身模型开源“屠榜”,首杀Pi0.5获英伟达Jim Fan点赞!

Spirit v1.5 在 RoboChallenge 的 Table30 榜单上超越 Pi0.5 登顶,标志着中国具身智能模型首次在全球统一基准测试中取得领先地位。这一突破不仅打破了长期以...

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

吴恩达公开了2026年目标:设计一个名为“图灵-AGI测试”的新评估体系,专门用于衡量通用人工智能(AGI)的实用能力。他认为,传统的图灵测试已无法满足当前AI发...

世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?

斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...

GPT-5.2已上线24小时:差评如潮!

OpenAI最新发布的GPT-5.2模型在官方宣传中被称为'迄今为止在专业知识工作上最强大的模型系列',并在多项基准测试中刷新了SOTA水平。然而,用户反馈却呈现显著...

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

大语言模型(LLM)的训练通常依赖大量算力和时间资源,而模型Souping(Model Souping)作为一种轻量级方法,通过对同一架构的多个模型进行权重平均,能够融合...
1 2 3 6