标签:推理测试
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
在大语言模型竞争中,数学与代码推理能力是关键“分水岭”。许多中小规模开源推理模型在高难测试中与闭源 SOTA 存在差距,而快手 Klear 语言大模型团队推出的 K...
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
最新研究利用NPR周日谜题挑战构建的新型基准测试,揭示了当前大语言模型在语言推理任务中的独特表现与局限。该数据集包含近600个涉及字母重组、单词变换等类...