标签:模型评测

Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破,成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-...

实测Gemini 3 Pro – 此即未来。

Gemini 3 Pro的发布标志着人工智能领域的一次重大突破。经过长达238天的等待,这款备受期待的模型终于正式上线,其表现远超预期,甚至让长期关注AI进展的观察...

MiniMax,可能是今年最大的黑马。

MiniMax公司最新发布的M2语言模型在性能与成本效益方面展现出显著优势,引发行业关注。该模型在Artificial Analysis测试榜单中位列全球第五,总分低于GPT-5、...

突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在...

国产推理大模型决战2025考研数学,看看谁第一个上岸?

随着2025年研究生考试的结束,考研数学真题成为了测试大语言模型,尤其是推理模型深度思考能力的重要工具。过去,大语言模型在数学问题上的表现并不理想,但...

清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?

清华大学SuperBench团队最近发布了新一轮的全球大模型评测结果。在语义理解、智能体能力和代码能力三个测评中,Claude 3模型表现出色,拿下两个第一名,并在...

清华系面壁MiniCPM:国产AI模型新突破,2B小钢炮成本效率双优

面壁MiniCPM模型是一款由清华系创业团队面壁智能发布的人工智能模型,具有24亿参数。该模型在多项AI评测中取得了领先成绩,成功挑战了70亿参数的国际大模型Mi...