模型评测 | 学习AIGC

实测Claude Opus 4.8，这可能是第一个不会偷懒的模型。

Anthropic近期发布了Claude Opus 4.8模型，并完成了新一轮巨额融资，估值逼近万亿美元。此次更新主要源于激烈的市场竞争压力以及前代模型表现未达预期。新模...

AIGC动态

1周前

这次登顶 RoboChallenge 的，终于是「能干活」的机器人了

Era0的优异表现并非依赖单一算法突破，而是源于数据、模型与工程推理全链路的系统性优化。团队建立了严格的量化数据质检流程，清除原始噪声并积累大规模跨本...

AIGC动态

2周前

全球AI Lab前十！Agnes新模型发布，以全模态+超低价定义模型性价比

全球人工智能产业竞争格局正呈现显著变化，传统头部企业主导的市场迎来全新参与者。Agnes AI近期在多项国际权威测评中表现突出，正式位列全球实验室综合排名...

AIGC动态

4周前

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

针对上述工程痛点，新一代开源评测系统通过自然语言驱动与智能体调度引擎完成了交互降维。操作人员仅需输入测试维度，后台即可自动匹配金融、医疗等垂直领域...

AIGC动态

1个月前

MiroMind新模型超越GPT-5.4，三位顶尖AI科学家加盟

MiroMind发布MiroThinker-v1.7模型家族，标志着其在长链条任务智能体领域的重大升级。该系列支持256K上下文窗口与单任务最高300次工具调用，显著提升多步骤推...

AIGC动态

3个月前

AI 下半场，LLM Benchmark 要补全什么？

当前大语言模型评测领域，通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题，推动业界愈发重视评测体系的有效性，对大语言模型评...

AIGC动态

3个月前

哪个模型最适合“养虾”？国产MiniMax-M2.1和Kimi-K2.5杀疯了

针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生，获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据，评测各家...

AIGC动态

3个月前

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被反超

百川智能宣布将在2026年上半年发布两款面向消费者的医疗产品，标志着中国企业在AI医疗领域的快速进展。全球范围内，健康咨询已成为ChatGPT等AI助手的高频使用...

AIGC动态

5个月前

GPT-5.2降智遭全网差评！奥特曼慌了

OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期，未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示，GPT-5.2的能力指数（ECI）得分为152，虽位列第...

AIGC动态

6个月前

Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破，成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-...

AI-Agent

6个月前

标签：模型评测

实测Claude Opus 4.8，这可能是第一个不会偷懒的模型。

这次登顶 RoboChallenge 的，终于是「能干活」的机器人了

全球AI Lab前十！Agnes新模型发布，以全模态+超低价定义模型性价比

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

MiroMind新模型超越GPT-5.4，三位顶尖AI科学家加盟

AI 下半场，LLM Benchmark 要补全什么？

哪个模型最适合“养虾”？国产MiniMax-M2.1和Kimi-K2.5杀疯了

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被反超

GPT-5.2降智遭全网差评！奥特曼慌了

Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

热门网址

标签：模型评测

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址