标签:基准测试
国产具身模型开源“屠榜”,首杀Pi0.5获英伟达Jim Fan点赞!
Spirit v1.5 在 RoboChallenge 的 Table30 榜单上超越 Pi0.5 登顶,标志着中国具身智能模型首次在全球统一基准测试中取得领先地位。这一突破不仅打破了长期以...
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
吴恩达公开了2026年目标:设计一个名为“图灵-AGI测试”的新评估体系,专门用于衡量通用人工智能(AGI)的实用能力。他认为,传统的图灵测试已无法满足当前AI发...
世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?
斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...
GPT-5.2已上线24小时:差评如潮!
OpenAI最新发布的GPT-5.2模型在官方宣传中被称为'迄今为止在专业知识工作上最强大的模型系列',并在多项基准测试中刷新了SOTA水平。然而,用户反馈却呈现显著...
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
大语言模型(LLM)的训练通常依赖大量算力和时间资源,而模型Souping(Model Souping)作为一种轻量级方法,通过对同一架构的多个模型进行权重平均,能够融合...
模型即智能体,Kimi K2 Thinking多项评估超越顶尖闭源模型,300轮工具调用不疲倦
月之暗面(Moonshot AI)发布的Kimi K2 Thinking模型代表了当前开源思考模型的最高水平。该模型基于'模型即智能体'理念开发,具备自主规划与多轮工具调用能力...
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了
百度文心5.0 Preview模型在LMArena全球文本竞技场测试中取得1432分,与OpenAI的GPT-4.5 Preview及Anthropic的两款Claude模型并列全球第二,同时位列国内第一...
前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA
Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...
上海AI实验室FlowSearch刷新深度研究新纪录,结构化知识流大幅提升模型性能
上海人工智能实验室开发的FlowSearch系统代表了AI智能体在深度研究领域的重要突破。该系统通过“动态结构化知识流”架构,成功克服了传统线性AI工作流在科研场...
Claude Sonnet 4.5 上手:一个未来 Agent 的雏形出现了
Anthropic最新发布的Claude Sonnet 4.5编程模型在多个领域展现出显著进步。该模型在OSWorld电脑使用测试中以61.4%的成绩成为最擅长操作电脑的AI,同时在金融...





