谷歌数学版Gemini破解奥赛难题，堪比人类数学家！

AIGC动态2年前 (2024)发布 AIera

4,131 0 0

文章摘要

在谷歌I/O大会上， Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能，特别是数学能力，其成绩甚至与人类专家水平相当。在关键基准测试中，1.5 Pro不仅超越了之前的“超大杯”1.0 Ultra版本，而且在大多数文本和视觉测试中，性能优于GPT-4 Turbo。

在数学评测方面，Gemini 1.5 Pro“数学定制版”使用了多个由数学竞赛衍生的基准测试，结果显示其明显优于Claude 3 Opus和GPT-4 Turbo，尤其在MATH测试中取得了91.1%的突破性成绩，而三年前的记录仅为6.9%。此外，在AIME测试集中，1.5 Pro能解决的问题数量是其他模型的4倍。

除了数学能力，1.5 Pro在文本评估中的推理、编码、多模态多项基准测试中也取得了显著优势。在MMLU通用语言理解基准测试中，1.5 Pro在正常设置中得分为85.9%，在多数投票设置中得分为91.7%，超过了GPT-4 Turbo。

在多模态评估中，技术报告涵盖了多模态推理、图表与文档、自然图像以及视频理解等多个基准测试，展示了1.5 Pro在图像理解任务和视频理解任务中的强大性能。

整体来看，Gemini 1.5 Pro的核心性能全面提升，无论是数学能力还是多模态理解，都表现出了当前最先进的技术水平。