文章摘要
【关 键 词】 对话评测、真人评测、自我反思、评分标准、评测基准
开放域对话的真人感评测长期面临标准难以制定、量化与统一的难题,其核心困境在于评判标准本身缺乏明确的客观共识且处于动态变化之中。现有的专家手写规则、奖励模型训练以及题目自动进化等业界常规思路,均无法从根本上解决标准本身说不清的核心问题。针对这一挑战,研究团队提出了一种名为GrowLoop的创新解决方案,旨在将难以言喻的感性标准转化为理性的动态评测基准。
该方案的核心在于利用少量人类标注作为种子,通过大模型的自我反思机制来自动学习和外化评分细则。通过将测试题目划分为共识区与分歧区,系统允许大模型在无统一标准答案的分歧区内提供合理的新判断视角,从而打破人类主观经验的局限。在细则学习方面,采用启发式学习范式,让大模型反复审视自身判断与人类评估之间的差异,深入挖掘并外化人类难以清晰表述的隐性知识,进而不断完善和修订评分规则。
此外,该机制实现了评分细则与测试题目的双循环协同进化。评分细则和测试题目在迭代中相互驱动,不仅利用大模型生成具有更高区分度的逼真对话题目,还确保了评估标准能够动态适应模型能力的持续提升。实际评测结果表明,该方法在判断一致性和模型能力档位区分度上均大幅领先于现有基线,并成功捕捉到如特定情境下内容长度需克制等人类难以言传的深层规则。
尽管目前该方法主要局限于文本领域,且生成的动态判官仍需与强化学习训练深度结合以验证其实际业务收益,但其思想具有广阔的迁移潜力。这种通过大模型反思能力推演隐性规则、构建动态标准的方法范式,不仅为下一代大模型的拟人化训练提供了可信的奖励信号,未来还可广泛应用于科研评审、艺术评价等同样缺乏客观量化标准的复杂评估场景。
原文和模型
【原文链接】 阅读原文 [ 7184字 | 29分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★★



