标签:评分标准

高德 GrowLoop:构建感性对话的理性 Benchmark

开放域对话的真人感评测长期面临标准难以制定、量化与统一的难题,其核心困境在于评判标准本身缺乏明确的客观共识且处于动态变化之中。现有的专家手写规则、...