
文章摘要
【关 键 词】 大模型、多轮对话、性能评估、对话迷失、指令分片
ChatGPT等大模型技术的快速发展,将AI应用推向了「对话」场景,直接引发了AI技术的爆炸式增长。用户可以通过多轮对话逐步完善指令,催生出「跟AI打电话」等创新应用。然而,现有的大模型性能评估基准仍基于单轮对话机制,其在真实场景中的多轮对话性能尚未得到充分评估。最近,研究人员通过超过20万次的多轮对话模拟实验,对比了15个顶级开源和闭源大模型在单轮和多轮对话中的表现,发现所有模型在多轮对话中的性能均显著下降,平均降幅达39%。
大模型在多轮对话中的表现明显低于单轮对话,平均性能下降了39%。 这种现象被称为「对话迷失」,即模型在多轮对话中一旦偏离正确方向,后续提示也无法纠正。研究人员通过重新设计单轮基准测试任务,将其转化为多轮模拟对话场景,以评估大模型在不明确对话中的表现。实验中,指令被分片处理,每个分片包含原始指令中的一个元素,模拟用户在对话中逐步揭示信息的过程。
指令分片的设计确保了信息保留、清晰的原始意图、顺序无关、最大化分片和最小化转换。 在多轮对话模拟中,用户模拟器逐步揭示分片内容,助手的回答被分类为七种策略之一,如澄清、拒绝、回避等。如果助手给出明确解决方案,系统会提取答案部分进行评估。实验还引入了「合并」和「总结」等模拟类型,以进一步分析模型在不同对话场景中的表现。
实验结果表明,分片对话中的性能下降并非由于信息丢失,而是源于对话的不明确性和多轮性质。 在合并设置中,模型的表现接近完全指定场景,表明分片指令并未导致信息丢失。较小的模型在合并对话中的表现下降更为明显,表明其泛化能力较弱。此外,增加测试时的计算量并不能帮助模型应对多轮不明确对话,推理模型的表现与非推理模型类似,且其生成的更长回答可能混淆模型认知。
总体而言,大模型在多轮不明确对话中的表现显著下降,且这一现象无法通过增加计算量或调整指令措辞来缓解。 这一发现为未来大模型的优化和应用场景设计提供了重要参考,尤其是在需要多轮交互的复杂任务中。
原文和模型
【原文链接】 阅读原文 [ 2239字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★