千亿模型 Yi-Large 杠上万亿 GPT-4 Turbo，多项能力不输 OpenAI

AIGC动态2年前 (2024)发布 aitechtalk

3,735 0 0

千亿模型 Yi-Large 杠上万亿 GPT-4 Turbo，多项能力不输 OpenAI

文章摘要

在近期的大模型竞技场Chatbot Arena中，一款名为“im-also-a-good-gpt2-chatbot”的模型引起了广泛关注，它超越了包括GPT-4-Turbo、Gemini 1.5 Pro等在内的国际知名大厂模型，后来证实这是GPT-4o的测试版本。紧随其后，中国大模型公司零一万物提交的“Yi-Large”千亿参数闭源大模型也表现出色，在LMSYS盲测竞技场最新排名中位列世界模型第七，中国大模型之首。

特别值得一提的是，Yi-Large在中文分榜上与GPT-4o并列第一，展现出其在中文语言处理方面的强大能力。此外，在编程能力、长提问及“艰难提示词”等特定评测中，Yi-Large均排名全球第二，紧随GPT-4系列模型之后。

LMSYS Chatbot Arena作为一个开放、科学的评测平台，采用真实用户盲测投票和Elo评分系统，减少了评测的偏见和刷榜可能性，被视为大模型评测的后benchmark时代风向标。Yi-Large在此次评测中的亮眼表现，不仅紧追国际第一阵营，也登顶国内大模型盲测，显示了中国大模型在国际竞争中的实力。

LMSYS Chatbot Arena的评测过程和机制，涵盖了用户参与、盲测、投票和动态评分等多个环节，确保了评测的客观性、权威性和专业性。这种评测方式能更准确地反映大模型在实际应用中的表现，为业界提供了一个可靠的参考标准。在此次44款模型的较量中，Yi-Large以小搏大，与国际顶尖模型同场竞技，展现了其在大模型领域的竞争力。