性能评测 | 学习AIGC

交白卷也排第一？Fable 5二百题全部拒答，却登顶最严AI编程基准

Anthropic近期发布的Claude Fable 5模型在多项编程基准测试中展现出强劲实力，但其内置的安全护栏机制引发了科技界的广泛争议。该模型最初被设计为在检测到用...

AI-Agent

1周前

Claude Opus 4.8实测封神！强到离谱，也贵到肉痛

Anthropic近期发布了全新大语言模型Claude Opus 4.8，将其定位为擅长编程、智能体任务和长时间推理的复杂任务模型，并同期宣布完成高额估值融资。该模型的发...

AIGC动态

3周前

X-Era蝉联双榜单冠军，引领世界模型未来方向

真正支撑机械体作业的预测架构必须具备几何精确、动力合理及调用顺畅的复合特征。坐标系定位误差会直接诱发抓持失准或路径冲突；而日常发生的物体位移、力学...

AIGC动态

4周前

SPEC CPU 2026发布，更新了什么？

标准性能评估公司近日正式发布SPEC CPU 2026基准测试套件，作为时隔九年的首个全新发展版本，该套将作为未来十年衡量CPU性能的核心标尺。新版本彻底更新了近...

AIGC动态

2个月前

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

月之暗面近期发布的Kimi K2 Thinking模型引发了行业广泛关注。这款主打'模型即Agent'的开源产品在多项基准测试中表现优异，甚至超越GPT-5、Claude 4.5等顶级...

AI-Agent

7个月前

加量不加价，一篇说明白 Claude Sonnet 4.5 强在哪

Anthropic发布了其最新AI模型Claude Sonnet 4.5，宣称这是目前世界上最好的编码模型。该模型在专注度方面表现突出，能够持续处理复杂任务超过30小时，远超竞...

AI-Agent

9个月前

让OpenAI只领先5天，百川发布推理新模型，掀翻医疗垂域开源天花板

全球最强开源医疗模型Baichuan-M2-32B由中国百川智能发布，该模型在OpenAI的HealthBench评测集上超越GPT-OSS-120B等前沿模型，成为除GPT-5外唯一在困难测试集...

AIGC动态

10个月前

Claude 3.7 Sonnet发布：别提什么AGI，我Anthropic要赚企业客户的钱！

Anthropic正式发布Claude 3.7 Sonnet模型，宣称这是其首个'混合推理模型'，通过'标准思考'和'扩展思考模式'实现不同响应策略。该模型在编程领域表现突出，SWE...

AI-Agent

1年前 (2025)

阿里要开源史上最强推理模型，性能超过DeepSeek R1。

阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview，并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...

AI-Agent

1年前 (2025)

Grok3省流版：AI大佬Andrej Karpathy的真实点评

马斯克的AI初创公司xAI最新推出的大模型Grok3，经AI专家Andrej Karpathy两小时深度测试后，展现出与行业顶尖模型相抗衡的能力。在核心的思考模式测试中，Grok...

AIGC动态

1年前 (2025)

标签：性能评测

交白卷也排第一？Fable 5二百题全部拒答，却登顶最严AI编程基准

Claude Opus 4.8实测封神！强到离谱，也贵到肉痛

X-Era蝉联双榜单冠军，引领世界模型未来方向

SPEC CPU 2026发布，更新了什么？

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

加量不加价，一篇说明白 Claude Sonnet 4.5 强在哪

让OpenAI只领先5天，百川发布推理新模型，掀翻医疗垂域开源天花板

Claude 3.7 Sonnet发布：别提什么AGI，我Anthropic要赚企业客户的钱！

阿里要开源史上最强推理模型，性能超过DeepSeek R1。

Grok3省流版：AI大佬Andrej Karpathy的真实点评

热门网址

标签：性能评测

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址