标签:基准测试
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
大语言模型(LLM)的训练通常依赖大量算力和时间资源,而模型Souping(Model Souping)作为一种轻量级方法,通过对同一架构的多个模型进行权重平均,能够融合...
模型即智能体,Kimi K2 Thinking多项评估超越顶尖闭源模型,300轮工具调用不疲倦
月之暗面(Moonshot AI)发布的Kimi K2 Thinking模型代表了当前开源思考模型的最高水平。该模型基于'模型即智能体'理念开发,具备自主规划与多轮工具调用能力...
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了
百度文心5.0 Preview模型在LMArena全球文本竞技场测试中取得1432分,与OpenAI的GPT-4.5 Preview及Anthropic的两款Claude模型并列全球第二,同时位列国内第一...
前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA
Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...
上海AI实验室FlowSearch刷新深度研究新纪录,结构化知识流大幅提升模型性能
上海人工智能实验室开发的FlowSearch系统代表了AI智能体在深度研究领域的重要突破。该系统通过“动态结构化知识流”架构,成功克服了传统线性AI工作流在科研场...
Claude Sonnet 4.5 上手:一个未来 Agent 的雏形出现了
Anthropic最新发布的Claude Sonnet 4.5编程模型在多个领域展现出显著进步。该模型在OSWorld电脑使用测试中以61.4%的成绩成为最擅长操作电脑的AI,同时在金融...
Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
开源大模型领域近期迎来了显著的技术进展,尤其是中国市场的竞争愈发激烈。Kimi K2作为一款备受关注的模型,其1T的总参数量在短时间内被Qwen3的新版本超越。Q...
刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了
ChatGPT agent的发布标志着人工智能领域的一次重大突破,它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合,形成了一个统一的智能体系统。这一...
刚刚,OpenAI通用智能体ChatGPT Agent正式登场
OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务,包括自动浏览日历、生成可编辑PPT、...
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
根据非营利研究机构METR最新发布的报告,AI智能体的能力呈现出一种“摩尔定律”式的增长趋势,平均每七个月其可完成任务的time horizon就会翻一番。这一规律已...






