基准测试 | 学习AIGC

本周 AI 项目推荐：WorldModelBench，WorldScore，WorldLens…世界模型井喷，需要新的Benchmark

2026年上半年，世界模型已成为人工智能领域的核心议题，但其发展正面临从视觉逼真向实际可用跨越的严峻挑战。比起单纯关注演示效果，建立科学的评测基准成为...

AIGC动态

1天前

本周 AI 项目推荐：UXBench、MemLens、RoadmapBench…下一代模型，需要下一代 Benchmark

当前大模型的发展正经历评测标准的深刻转变，下一代基准测试的核心目标已从单纯评估模型的答题能力，转向衡量系统在真实世界中稳定执行任务的综合表现。未来...

AIGC动态

2周前

AI成绩单背后，藏着一位华人“出题人”

随着前沿大语言模型能力的快速提升，传统的MMLU等基准评测逐渐面临“旧考卷失灵”的困境，前沿模型准确率逼近满分，难以有效区分模型间的真实能力差距。为解决...

AIGC动态

2周前

首个企业IT运维Agent基准，Claude拿第一也才47%

Artificial Analysis与IBM联合推出了首个专门针对企业级IT任务的智能体基准测试ITBench-AA，旨在填补现有通用评测标准在高度专业化的企业运维领域的空白。该...

AI-Agent

4周前

SPEC CPU 2026发布，更新了什么？

标准性能评估公司近日正式发布SPEC CPU 2026基准测试套件，作为时隔九年的首个全新发展版本，该套将作为未来十年衡量CPU性能的核心标尺。新版本彻底更新了近...

AIGC动态

2个月前

Anthropic联创定下deadline：2028年AI实现自我进化，没有人类了

Anthropic联合创始人基于海量公开开发数据预测，到2028年底，人工智能实现递归自我改进的概率已提升至60%。这意味着主流系统将具备端到端自动化研发的能力，...

AIGC动态

2个月前

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

现实世界中多智能体协作面临无法频繁试错的限制，离线强化学习成为重要方向。然而从单智能体转向多智能体时，系统需在反馈有限条件下学会协作，面临奖励稀疏...

AIGC动态

3个月前

你敢把「龙虾」放在手机上跑吗？手机 Agent 离落地还差一道「隐私关」

香港中文大学深圳分校 Freedoms AI 团队联合腾讯混合大视觉大模型等多项合作研究推出了一个新的测评基准项目名为 My Phone Bench该系统专门用于系统化衡量手...

AI-Agent

3个月前

顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色，但其“智能”常源...

AIGC动态

3个月前

五百行代码打造SOTA视觉智能体！UniPat AI最新开源

SWE-Vision是一种极简的视觉智能体框架，旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现，尽管当前多模态大模型在编程能...

AI-Agent

4个月前

标签：基准测试

本周 AI 项目推荐：WorldModelBench，WorldScore，WorldLens…世界模型井喷，需要新的Benchmark

本周 AI 项目推荐：UXBench、MemLens、RoadmapBench…下一代模型，需要下一代 Benchmark

AI成绩单背后，藏着一位华人“出题人”

首个企业IT运维Agent基准，Claude拿第一也才47%

SPEC CPU 2026发布，更新了什么？

Anthropic联创定下deadline：2028年AI实现自我进化，没有人类了

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

你敢把「龙虾」放在手机上跑吗？手机 Agent 离落地还差一道「隐私关」

顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平

五百行代码打造SOTA视觉智能体！UniPat AI最新开源

热门网址

标签：基准测试

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址