你永远叫不醒装睡的大模型！多轮对话全军覆没，性能暴跌39%

1,338 0 0

文章摘要

ChatGPT等大模型技术的快速发展，将AI应用推向了「对话」场景，直接引发了AI技术的爆炸式增长。用户可以通过多轮对话逐步完善指令，催生出「跟AI打电话」等创新应用。然而，现有的大模型性能评估基准仍基于单轮对话机制，其在真实场景中的多轮对话性能尚未得到充分评估。最近，研究人员通过超过20万次的多轮对话模拟实验，对比了15个顶级开源和闭源大模型在单轮和多轮对话中的表现，发现所有模型在多轮对话中的性能均显著下降，平均降幅达39%。

大模型在多轮对话中的表现明显低于单轮对话，平均性能下降了39%。 这种现象被称为「对话迷失」，即模型在多轮对话中一旦偏离正确方向，后续提示也无法纠正。研究人员通过重新设计单轮基准测试任务，将其转化为多轮模拟对话场景，以评估大模型在不明确对话中的表现。实验中，指令被分片处理，每个分片包含原始指令中的一个元素，模拟用户在对话中逐步揭示信息的过程。

指令分片的设计确保了信息保留、清晰的原始意图、顺序无关、最大化分片和最小化转换。 在多轮对话模拟中，用户模拟器逐步揭示分片内容，助手的回答被分类为七种策略之一，如澄清、拒绝、回避等。如果助手给出明确解决方案，系统会提取答案部分进行评估。实验还引入了「合并」和「总结」等模拟类型，以进一步分析模型在不同对话场景中的表现。

实验结果表明，分片对话中的性能下降并非由于信息丢失，而是源于对话的不明确性和多轮性质。在合并设置中，模型的表现接近完全指定场景，表明分片指令并未导致信息丢失。较小的模型在合并对话中的表现下降更为明显，表明其泛化能力较弱。此外，增加测试时的计算量并不能帮助模型应对多轮不明确对话，推理模型的表现与非推理模型类似，且其生成的更长回答可能混淆模型认知。

总体而言，大模型在多轮不明确对话中的表现显著下降，且这一现象无法通过增加计算量或调整指令措辞来缓解。 这一发现为未来大模型的优化和应用场景设计提供了重要参考，尤其是在需要多轮交互的复杂任务中。