标签:推理能力
阿里最新开源模型Qwen3到底能不能打?不妨上「通义App」亲自试试
阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源,并迅速登顶多项大模型测评榜单,引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力...
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
OpenAI近期发布了多款新模型,包括o3、o4-mini和GPT-4.1,每款模型在复杂任务、日常应用和API开发中展现出不同的优势。o3作为OpenAI最新的旗舰模型,专为深度...
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了
近期,大模型领域迎来了一系列重要进展,尤其是豆包大模型家族的更新和火山引擎的创新发布。 豆包大模型家族推出了「豆包 1.5・深度思考模型」,包含两个版本...
让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?
OpenAI 最新发布了 OpenAI o3 和 o4-mini 模型,标志着 ChatGPT 能力的一次飞跃。这些模型首次实现了自主调用并整合 ChatGPT 内的全量工具,包括网页搜索、Py...
OpenAI发布o3/o4-mini两大推理模型,要把Agent吞进模型里了
OpenAI近期发布了两个新模型o3和o4-mini,标志着其在人工智能领域的进一步突破。这两个模型不仅在编码、数学、科学等传统领域展现出强大的推理能力,还首次实...
史上最贵 API!比 DeepSeek-R1 贵千倍,OpenAI 高价劝退一批用户!
OpenAI最近推出了o1-pro API,这是其o1“推理”系列模型的更强大版本,旨在提供更优的回答。该模型使用了更多的计算资源,但目前仅对在OpenAI API服务上花费至...
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...
图解 DeepSeek-R1
DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...