标签:模型评测
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。
Anthropic近期发布了Claude Opus 4.8模型,并完成了新一轮巨额融资,估值逼近万亿美元。此次更新主要源于激烈的市场竞争压力以及前代模型表现未达预期。新模...
这次登顶 RoboChallenge 的,终于是「能干活」的机器人了
Era0的优异表现并非依赖单一算法突破,而是源于数据、模型与工程推理全链路的系统性优化。团队建立了严格的量化数据质检流程,清除原始噪声并积累大规模跨本...
全球AI Lab前十!Agnes新模型发布,以全模态+超低价定义模型性价比
全球人工智能产业竞争格局正呈现显著变化,传统头部企业主导的市场迎来全新参与者。Agnes AI近期在多项国际权威测评中表现突出,正式位列全球实验室综合排名...
10小时测完DeepSeek-V4!北大团队终结工程师噩梦?深扒大模型评测的“千亿生意”
针对上述工程痛点,新一代开源评测系统通过自然语言驱动与智能体调度引擎完成了交互降维。操作人员仅需输入测试维度,后台即可自动匹配金融、医疗等垂直领域...
MiroMind新模型超越GPT-5.4,三位顶尖AI科学家加盟
MiroMind发布MiroThinker-v1.7模型家族,标志着其在长链条任务智能体领域的重大升级。该系列支持256K上下文窗口与单任务最高300次工具调用,显著提升多步骤推...
AI 下半场,LLM Benchmark 要补全什么?
当前大语言模型评测领域,通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题,推动业界愈发重视评测体系的有效性,对大语言模型评...
哪个模型最适合“养虾”?国产MiniMax-M2.1和Kimi-K2.5杀疯了
针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生,获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据,评测各家...
发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被反超
百川智能宣布将在2026年上半年发布两款面向消费者的医疗产品,标志着中国企业在AI医疗领域的快速进展。全球范围内,健康咨询已成为ChatGPT等AI助手的高频使用...
GPT-5.2降智遭全网差评!奥特曼慌了
OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期,未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示,GPT-5.2的能力指数(ECI)得分为152,虽位列第...
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1
Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破,成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-...
1
2


