标签:基准测试

SPEC CPU 2026发布,更新了什么?

标准性能评估公司近日正式发布SPEC CPU 2026基准测试套件,作为时隔九年的首个全新发展版本,该套将作为未来十年衡量CPU性能的核心标尺。新版本彻底更新了近...

Anthropic联创定下deadline:2028年AI实现自我进化,没有人类了

Anthropic联合创始人基于海量公开开发数据预测,到2028年底,人工智能实现递归自我改进的概率已提升至60%。这意味着主流系统将具备端到端自动化研发的能力,...

中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026

现实世界中多智能体协作面临无法频繁试错的限制,离线强化学习成为重要方向。然而从单智能体转向多智能体时,系统需在反馈有限条件下学会协作,面临奖励稀疏...

你敢把「龙虾」放在手机上跑吗?手机 Agent 离落地还差一道「隐私关」

香港中文大学深圳分校 Freedoms AI 团队联合腾讯混合大视觉大模型等多项合作研究推出了一个新的测评基准项目名为 My Phone Bench该系统专门用于系统化衡量手...

顶级模型得分低于1%:ARC-AGI-3全新人机较量,揭开智能体真实水平

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色,但其“智能”常源...

五百行代码打造SOTA视觉智能体!UniPat AI最新开源

SWE-Vision是一种极简的视觉智能体框架,旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现,尽管当前多模态大模型在编程能...

哪个模型最适合“养虾”?国产MiniMax-M2.1和Kimi-K2.5杀疯了

针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生,获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据,评测各家...

国产具身模型开源“屠榜”,首杀Pi0.5获英伟达Jim Fan点赞!

Spirit v1.5 在 RoboChallenge 的 Table30 榜单上超越 Pi0.5 登顶,标志着中国具身智能模型首次在全球统一基准测试中取得领先地位。这一突破不仅打破了长期以...

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

吴恩达公开了2026年目标:设计一个名为“图灵-AGI测试”的新评估体系,专门用于衡量通用人工智能(AGI)的实用能力。他认为,传统的图灵测试已无法满足当前AI发...

世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?

斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...
1 2 3 6