标签:评测基准
人类最后考试已不够用,Agent最后考试来了!
针对当前人工智能系统在问答类基准测试中表现优异,但在核心行业长流程真实工作流中经济效用有限的问题,研究团队推出了Agents' Last Exam(ALE)。该基准旨...
同一个模型,换套框架成绩差27%:SWE-bench分数到底谁说了算?
当前编程Agent评测面临标准不统一的问题,SWE-bench的分数受底层模型、框架设计和任务集共同影响,导致不同系统的成绩难以直接横向比较,且通用Agent因输出格...
对话戴盟机器人王煜:做好人形机器人的灵巧操作,要先「对齐」触觉数据 | ICRA 2026
在ICRA 2026会议上,戴盟机器人联合创始人王煜教授探讨了触觉感知与物理智能在机器人精细操作中的关键作用。若要实现机器人的精细操作,末端执行器必须感知与...
RobOmni登场!戴盟联合银河通用,把机器人的触觉和精细操作测明白了
在ICRA大会上,戴盟机器人联合银河通用推出了行业首个面向物理交互能力的含触觉全模态评测基准RobOmni。随着具身智能从以视觉感知为中心迈向以真实物理交互为...
当Agent真正走进复杂数据分析场景:DataClawBench 用492个真实任务,给前沿模型做了一次过程级体检
真实数据分析工作流具有高度的开放性与严谨性要求,其核心挑战在于未知且嘈杂数据环境带来的沉重探索负担。现有主流评测基准通常通过预设数据源、提供完整结...
小红书图像编辑模型开源,媲美NanoBanana Pro
小红书超级智能团队倾力打造的指令驱动图像编辑扩散模型FireRed-Image-Edit正式开源,该模型具备顶级指令理解与像素级控制力,通过系统性优化数据清洗、模型...
DeepSeek 把R1论文又更新了60多页,V4呼之欲出了吧
DeepSeek在arXiv上更新了R1论文的版本,从22页扩展至86页,新增内容包括完整的训练管线拆解、20多个评测基准的详细数据以及技术附录。这一更新发生在R1发布一...
SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破
SALMONN家族在音视频理解领域取得重大突破,最新发布的video-SALMONN 2+、video-SALMONN-o1、F-16和AVUT基准在多个方面实现了技术飞跃。video-SALMONN 2+通过...
智元机器人发布并开源首个机器人动作序列驱动的世界模型
智元机器人近日发布了具身智能领域的两项重要突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC(EnerVerse-AC),以及具身世界模型评测基准 EWMBenc...
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含...
1
2


