标签:推理

全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判

谷歌DeepMind凭借其最新模型Gemini Deep Think在国际数学奥林匹克竞赛(IMO)中取得了历史性突破,成功摘得金牌。这一成就标志着AI在数学推理领域的重大进展...

先别急着给OpenAI加冕!陶哲轩:这种「金牌」,含金量取决于「赛制」

OpenAI 最近宣布其推理模型在国际数学奥林匹克(IMO)竞赛中取得了金牌水平的成绩,这一消息引发了广泛关注。该模型在严格遵循人类选手比赛规则的条件下,成...

MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer

MiniMax在7月10日举办的M1技术研讨会汇集了全球顶尖的研究者和业界嘉宾,深入探讨了模型架构创新、RL训练、长上下文应用等前沿话题。RL能否赋予模型新能力?...

斯坦福开源复杂推理AI Agent,融合超10种工具

传统的AI助手通常依赖于单一模型或有限的工具集,难以应对需要多步推理、跨领域知识融合及高精度数据分析的任务。为了解决这一难题,斯坦福大学开源了OctoToo...

大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准

大语言模型(LLM)在生成看似正确的结论时,往往缺乏严谨的推理过程,尤其是在数学证明领域。不等式问题因其结构简单、逻辑清晰,成为检验模型推理能力的理想...

腾讯AI Lab 提出解耦推理新框架,破解IMO 数学难题

近年来,大语言模型(LLM)在数学推理领域取得了显著进展,但在形式化数学证明方面却遇到了瓶颈。尽管LLM能够以超过80%的准确率生成非形式化的解题思路,但在...

微软开源新版Phi-4:推理效率暴涨10倍,笔记本可运行

微软近日开源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning,该版本延续了Phi-4家族参数小、性能强的特点,专门为受算力、内存和延迟限制的场景设计,适...

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景...

开源DeepSeek R1增强版:推理效率快200%,创新AoE架构

德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。该模型基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,并采用了一...

MoE那么大,几段代码就能稳稳推理 | 开源

华为最新开源项目Omni-Infer为超大规模混合专家网络模型(MoE)的推理提供了全面的架构、技术和代码支持。该项目旨在帮助企业用户实现高性能、易维护的推理部...
1 2 3 10