标签:推理能力
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
欧洲人工智能公司Mistral AI近期发布了全新的大语言模型系列Magistral,该系列展现了强大的推理能力,能够通过不断反思解决更复杂的任务。Magistral系列包含...
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
当前人工智能领域普遍认为以DeepSeek-R1、Claude 3.7 Sonnet为代表的推理大模型已具备类人思考能力,但苹果团队的最新研究对此提出根本性质疑。通过设计可控...
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
Anthropic在首届开发者大会上正式发布了Claude 4系列模型,包括Claude Opus 4和Claude Sonnet 4两个型号。Claude Opus 4是该公司迄今为止最强大的AI模型,能...
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
CoRT(Chain-of-Recursive-Thoughts)是一种在语言模型中引入递归思考和自我批判机制的新方法,旨在提升模型的推理能力。与传统的CoT(Chain-of-Thought)相...
清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力
“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...
阿里最新开源模型Qwen3到底能不能打?不妨上「通义App」亲自试试
阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源,并迅速登顶多项大模型测评榜单,引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力...
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
OpenAI近期发布了多款新模型,包括o3、o4-mini和GPT-4.1,每款模型在复杂任务、日常应用和API开发中展现出不同的优势。o3作为OpenAI最新的旗舰模型,专为深度...
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了
近期,大模型领域迎来了一系列重要进展,尤其是豆包大模型家族的更新和火山引擎的创新发布。 豆包大模型家族推出了「豆包 1.5・深度思考模型」,包含两个版本...