标签：推理测试

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型竞争中，数学与代码推理能力是关键“分水岭”。许多中小规模开源推理模型在高难测试中与闭源 SOTA 存在差距，而快手 Klear 语言大模型团队推出的 K...

AIGC动态

6个月前

DeepSeek R1遇难题142次”I give up”，研究还称需增加推理时机控制机制

最新研究利用NPR周日谜题挑战构建的新型基准测试，揭示了当前大语言模型在语言推理任务中的独特表现与局限。该数据集包含近600个涉及字母重组、单词变换等类...

AIGC动态

1年前 (2025)