标签:基准测试

前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA

Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...

上海AI实验室FlowSearch刷新深度研究新纪录,结构化知识流大幅提升模型性能

上海人工智能实验室开发的FlowSearch系统代表了AI智能体在深度研究领域的重要突破。该系统通过“动态结构化知识流”架构,成功克服了传统线性AI工作流在科研场...

Claude Sonnet 4.5 上手:一个未来 Agent 的雏形出现了

Anthropic最新发布的Claude Sonnet 4.5编程模型在多个领域展现出显著进步。该模型在OSWorld电脑使用测试中以61.4%的成绩成为最擅长操作电脑的AI,同时在金融...

Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了

开源大模型领域近期迎来了显著的技术进展,尤其是中国市场的竞争愈发激烈。Kimi K2作为一款备受关注的模型,其1T的总参数量在短时间内被Qwen3的新版本超越。Q...

刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了

ChatGPT agent的发布标志着人工智能领域的一次重大突破,它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合,形成了一个统一的智能体系统。这一...

刚刚,OpenAI通用智能体ChatGPT Agent正式登场

OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务,包括自动浏览日历、生成可编辑PPT、...

7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律

根据非营利研究机构METR最新发布的报告,AI智能体的能力呈现出一种“摩尔定律”式的增长趋势,平均每七个月其可完成任务的time horizon就会翻一番。这一规律已...

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...

字节跳动开源多模态AI Agent—UI-TARS-1.5

字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...
1 2 3 5