让LLM互相“审稿”：简单的LLM Collaboration/Ensemble方法实现7%性能提升

30 0 0

文章摘要

当前大模型层出不穷，但面临准确性有限及幻觉等问题，且不同模型对同一提示词的回答差异显著。受集成学习启发，同时考虑多个可开箱即用的大模型以综合利用差异化优势成为新趋势。然而，现有的推理后集成方法要么依赖任务特定训练数据缺乏泛化性，要么基于浅层相似度度量设计粗糙，潜力未被充分开发。提出的方法是一种完全无监督的、尽可能简单的大模型集成方法。

受学术同行评审启发，构建了完全无监督的 LLM-PeerReview 框架。该框架包含评分、推理、选择三个顺次运行模块。复用模型集合中的大模型作为评估者对每个回答打分，并提出了关键的翻转三元评分技术作为提升框架效能的基石。该技术通过随机洗牌及三元组翻转滑动评分，有效缓解了一致性偏差与位置偏差。推理阶段可采用简单平均或基于图模型的权重感知聚合，最终锁定得分最高的回复作为集成结果。变体方法引入了权重感知，根据不同大模型的评审水平赋予不同的打分权重。

实验表明，嵌入翻转三元评分技术的同行评审框架是一个超级简单且有效的多大模型协同方法。所提出的方法明显超越了任何单一模型的性能表现，也明显超越了所有基线方法。在平均性能上，以显著优势超越了先进的推理后集成方法及经典的推理时集成方法。该方法无需微调，具有良好可解释性，既适用于精确匹配生成任务，也可应用于开放生成任务。相较于基于辩论的协作方法，该框架仅需一轮打分，具有更好的计算效率，为各种任务和数据集提供了灵活的泛化性和适应性。