标签:推理能力
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
2026年初,大模型领域的研究焦点集中在自蒸馏(Self-Distillation)技术上,这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调(SFT)在模型吸收新知...
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
过去两年,大模型的推理能力经历了显著跃迁,尤其在数学、逻辑和多步规划等复杂任务上,推理模型如OpenAI的o系列、DeepSeek-R1和QwQ-32B已稳定超越传统指令微...
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,行业通过扩大模型规模和采用RLHF等技术...
为什么是这10个词,定义了2025年AI叙事
2025年标志着人工智能领域从技术探索迈向深度产业化的关键转折点。AI不再局限于代码与算法,而是通过Agent(智能体)渗透至千行百业,推动机器人实现具身智能...
BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限
一款仅有30亿参数的小模型在数学和推理能力上超越了320亿参数的大模型,这一突破性成果由BOSS直聘Nanbeige大语言模型实验室通过其开源的Nanbeige4-3B模型实现...
DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
DeepSeek近日发布了V3.2正式版模型,包括DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个版本。此次更新的核心在于推理能力和Agent工具调用能力的显著提升。其中...
DeepSeek-V3.2正式版发布,将开源模型的能力推向极致
DeepSeek团队正式开源了DeepSeekV3.2的两个版本:标准版和Speciale版。标准版专注于日常任务与通用智能体场景,在推理能力与输出效率之间取得了平衡,其性能...
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
谷歌发布最新AI模型Gemini 3,标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1...
AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
谷歌AI Studio上的一个神秘模型成功识别并修正了200多年前一位商人的「天书」账本,展现出接近人类专家级的手写文本识别能力和隐式推理水平。历史学家Mark Hu...
中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动
中科院自动化所、清华大学与GigaAI联合发布了视觉-语言-行动(VLA)模型的R1推理版本,该模型通过引入思维链机制和强化学习策略,显著提升了机器人在复杂环境...



