UC伯克利「LLM排位赛」结果出炉！Claude 3追平GPT-4并列第一

AIGC动态2年前 (2024)发布 AIera

2,937 0 0

文章摘要

新智元报道了Anthropic公司推出的Claude 3模型，该模型在数据集跑分和用户体验方面均领先于GPT-4。尽管以往的新模型在跑分上超越GPT-4，但实际体验往往不如GPT-4。然而，Claude 3在用户体验上得到了积极反馈，在lmsys LLM Arena排行榜上，Claude 3在真实用户反馈的基础上，排名不断上升，与发布了几个月的GPT-4最新版并列第一。这表明Claude 3有望在用户体验上超越GPT-4。

在一项比较Claude 3和GPT-4算数能力的实验中，Claude 3 Opus在处理9-10位数的加减法时表现出100%的准确率，而GPT-4在更复杂的测试用例中开始出错。在乘法方面，尽管所有模型表现不佳，但Opus的表现仍然优于GPT-4。这表明Claude 3在数学计算方面具有显著优势。

此外，Claude 3还被用于尝试翻译古代文物上的语言。在一个案例中，用户让Claude 3尝试翻译神秘的斐斯托斯圆盘，该文物自1908年被发现以来，尽管有许多尝试，但至今仍未被成功翻译。Claude 3在理解了一些关于圆盘的现有信息后，开始进行推测性翻译，并提供了一种可能的解释。这展示了Claude 3在处理复杂问题和进行创造性思考方面的能力。

Claude 3还被用于帮助初创公司的CEO将创意分解为可操作的创业规划。CEO分享了他个人常用的Claude提示词，这些提示词可以帮助人们检验想法是否可行，以及在不熟悉的领域做出工程决策。这表明Claude 3能够根据用户的要求，提供专业化的处理和建议。

最后，Claude 3还被用于编写解释勾股定理的代码。这进一步证明了Claude 3在理解和生成编程代码方面的能力。

总的来说，Claude 3在多个方面表现出色，不仅在数学计算和语言翻译方面超越了GPT-4，还能帮助用户进行创业规划和编程。这些能力使Claude 3成为一个强大的AI助手，有望在用户体验上超越GPT-4。