标签:评估方法
听说,大家都在梭后训练?最佳指南来了
在大模型时代,Scaling Law曾被视为AI领域的黄金准则,但随着模型规模扩展到百亿、千亿级,其边际效益开始递减。业界逐渐将重心从预训练转向后训练阶段,这一...
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
苹果最新发布的大模型研究论文在AI领域引发广泛讨论,其核心观点直指当前推理模型的根本局限性。研究团队通过精心设计的四类可控谜题环境(汉诺塔、跳棋交换...
OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比
Grok-3模型发布后因评估方法引发争议,OpenAI团队公开指责其测试结果存在误导性。争议焦点集中在Grok-3的AIME 2025评估图中,其柱状图浅色部分标注为Con@64成...




