标签:模型评测
MiroMind新模型超越GPT-5.4,三位顶尖AI科学家加盟
MiroMind发布MiroThinker-v1.7模型家族,标志着其在长链条任务智能体领域的重大升级。该系列支持256K上下文窗口与单任务最高300次工具调用,显著提升多步骤推...
AI 下半场,LLM Benchmark 要补全什么?
当前大语言模型评测领域,通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题,推动业界愈发重视评测体系的有效性,对大语言模型评...
哪个模型最适合“养虾”?国产MiniMax-M2.1和Kimi-K2.5杀疯了
针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生,获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据,评测各家...
发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被反超
百川智能宣布将在2026年上半年发布两款面向消费者的医疗产品,标志着中国企业在AI医疗领域的快速进展。全球范围内,健康咨询已成为ChatGPT等AI助手的高频使用...
GPT-5.2降智遭全网差评!奥特曼慌了
OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期,未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示,GPT-5.2的能力指数(ECI)得分为152,虽位列第...
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1
Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破,成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-...
实测Gemini 3 Pro – 此即未来。
Gemini 3 Pro的发布标志着人工智能领域的一次重大突破。经过长达238天的等待,这款备受期待的模型终于正式上线,其表现远超预期,甚至让长期关注AI进展的观察...
MiniMax,可能是今年最大的黑马。
MiniMax公司最新发布的M2语言模型在性能与成本效益方面展现出显著优势,引发行业关注。该模型在Artificial Analysis测试榜单中位列全球第五,总分低于GPT-5、...
突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题
Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在...
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着2025年研究生考试的结束,考研数学真题成为了测试大语言模型,尤其是推理模型深度思考能力的重要工具。过去,大语言模型在数学问题上的表现并不理想,但...
1
2




