Arena-Hard：开源高质量大模型评估基准

AIGC动态1年前 (2024)更新 AIGCOPEN

3,408 0 0

文章摘要

【关键词】 大模型、评估基准、提示多样性、主题建模、用户查询

该文章介绍了一个专注于AIGC领域的专业社区，关注微软 & OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地的平台。

文章指出，开发一个安全、准确的大模型评估基准需要包含稳定识别模型能力、反映真实世界使用情况中的人类偏好以及经常更新以避免过拟合或测试集泄漏等重要内容。

传统的基准测试通常是静态的或闭源的，而大模型的技术发展和功能迭代的比较凸显了建立具有高可分离性评估基准的必要性。

Lmsys组织开源了一个全新高质量大模型评估基准Arena-Hard，与当前领先的聊天大模型基准测试MT Bench进行了比较。

结果显示，Arena Hard v0.1相对于MT Bench提供了更强的可分离性，且置信区间更窄，与Chatbot Arena的人类偏好排名具有更高的一致性。

Arena-hard-v0.1相比广泛采用的大模型基准显示出最高的可分离性，并且便宜且运行速度快。

Arena-hard-v0.1构建了一个管道，可以从通过Chatbot Arena收集的200,000个用户查询的数据集中自动提取高质量提示，包括多样性和提示质量。

为了确保提示多样性，Lmsys采用主题建模管道，在BERTopic中使用主题建模管道，帮助识别涵盖广泛领域的4000多个主题。

为了帮助大模型选择高质量的用户查询，Lmsys开发了一个经过校准的系统提示，根据七个关键标准如特异性、领域知识、问题解决能力等选择高质量的用户查询。

大模型Judge对每个提示进行注释，然后根据提示的平均得分对每个簇进行评分。

最后，Lmsys展示了从低到高平均分数的主题集群示例，例如游戏开发或数学证明。

研究表明高潜在得分与不同模型的胜率之间存在很强的相关性。

原文和模型

【原文链接】 阅读原文 [ 1090字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 大模型 # 主题建模 # 大模型 # 提示多样性 # 用户查询 # 评估基准

文章版权归作者所有，未经允许请勿转载。

超270个大模型下，如何解决“国外一开源，国内就创新”的AI安全治理挑战？｜钛媒体AGI

钛媒体AGI

1,561

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心

664

苹果奔向AI原生应用元年

admin

1,782

国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品

量子位

998

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

机器之心

778

AI 应用之路：质疑汤姆猫，成为汤姆猫，超越汤姆猫

Founder Park

2,619

暂无评论

暂无评论...

Arena-Hard：开源高质量大模型评估基准

文章摘要

原文和模型

三大模型联手爆改《流浪地球》结局！如果你是刘培强，你是认命还是怀抱希望？｜AI 测评室

高通CEO罕见与英特尔、AMD同台，AI或将重塑PC市场

相关文章

暂无评论

热门网址

热门文章

Arena-Hard：开源高质量大模型评估基准

文章摘要

原文和模型

三大模型联手爆改《流浪地球》结局！如果你是刘培强，你是认命还是怀抱希望？｜AI 测评室

高通CEO罕见与英特尔、AMD同台，AI或将重塑PC市场

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章