模型评测 | 学习AIGC

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被反超

百川智能宣布将在2026年上半年发布两款面向消费者的医疗产品，标志着中国企业在AI医疗领域的快速进展。全球范围内，健康咨询已成为ChatGPT等AI助手的高频使用...

AIGC动态

5天前

GPT-5.2降智遭全网差评！奥特曼慌了

OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期，未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示，GPT-5.2的能力指数（ECI）得分为152，虽位列第...

AIGC动态

1个月前

Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破，成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-...

AI-Agent

2个月前

实测Gemini 3 Pro – 此即未来。

Gemini 3 Pro的发布标志着人工智能领域的一次重大突破。经过长达238天的等待，这款备受期待的模型终于正式上线，其表现远超预期，甚至让长期关注AI进展的观察...

AIGC动态

2个月前

MiniMax，可能是今年最大的黑马。

MiniMax公司最新发布的M2语言模型在性能与成本效益方面展现出显著优势，引发行业关注。该模型在Artificial Analysis测试榜单中位列全球第五，总分低于GPT-5、...

AI-Agent

3个月前

突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题

Grok-3的开放使用引发科技界广泛关注，其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型，Grok-3免费开放DeepSearch和Think两大模式，但在...

AIGC动态

11个月前

国产推理大模型决战2025考研数学，看看谁第一个上岸？

随着2025年研究生考试的结束，考研数学真题成为了测试大语言模型，尤其是推理模型深度思考能力的重要工具。过去，大语言模型在数学问题上的表现并不理想，但...

AIGC动态

1年前 (2025)

清华SuperBench全球测评出炉，Claude 3拿下多个冠军！合成数据才是人类未来？

清华大学SuperBench团队最近发布了新一轮的全球大模型评测结果。在语义理解、智能体能力和代码能力三个测评中，Claude 3模型表现出色，拿下两个第一名，并在...

AIGC动态

2年前 (2024)

清华系面壁MiniCPM：国产AI模型新突破，2B小钢炮成本效率双优

面壁MiniCPM模型是一款由清华系创业团队面壁智能发布的人工智能模型，具有24亿参数。该模型在多项AI评测中取得了领先成绩，成功挑战了70亿参数的国际大模型Mi...

AIGC动态

2年前 (2024)

标签：模型评测

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被反超

GPT-5.2降智遭全网差评！奥特曼慌了

Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

实测Gemini 3 Pro – 此即未来。

MiniMax，可能是今年最大的黑马。

突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题

国产推理大模型决战2025考研数学，看看谁第一个上岸？

清华SuperBench全球测评出炉，Claude 3拿下多个冠军！合成数据才是人类未来？

清华系面壁MiniCPM：国产AI模型新突破，2B小钢炮成本效率双优

热门网址

标签：模型评测

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址