新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对

AIGC动态3周前发布 QbitAI
201 0 0
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对

 

文章摘要


【关 键 词】 语言模型性能卓越视觉推理编码能力知识更新

Claude 3.5 Sonnet是Anthropic公司推出的一款新型大型语言模型,以其卓越的性能和快速、低成本的特点在全球范围内受到关注。在关键指标的比较中,Claude 3.5 Sonnet在多个方面超越了GPT-4o。

Claude 3.5 Sonnet的训练数据知识截止日期更新至2024年4月,能够了解最新的事件,如2024年2月的橄榄球超级碗比赛结果。网友们对这款模型的测评非常热衷,测评方式多样,甚至有人用它重现了1995年电影《黑客》中的3D数据流模型。

在中文场景的测试中,Claude 3.5 Sonnet成功完成了一项此前只有GPT最新模型才能完成的任务:编写一个长度为10行的故事,每行均以“苹果”结尾。此外,它还在阿里巴巴数学竞赛的选择题中,即使没有给定选项,也能正确回答问题。

Claude 3.5 Sonnet在视觉推理方面也显示出显著的改进。有网友利用其可视化深度学习的能力,虽然与知名博主3blue1brown的教程相比还有差距,但表现仍然不错。此外,Claude 3.5 Sonnet还尝试了芯片设计领域,通过简单的提示词生成了芯片制造流程图,尽管在某些情况下生成的结果不太稳定。

编码能力方面,Claude 3.5 Sonnet同样表现出色。Anthropic的员工表示,该模型开始真正擅长编码和自动修复Pull Request。尽管Claude 3.5 Sonnet在某些方面仍有不稳定的情况,但其在多个领域的出色表现已经引起了广泛关注和讨论。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 5083字 | 21分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...