标签:性能评测
交白卷也排第一?Fable 5二百题全部拒答,却登顶最严AI编程基准
Anthropic近期发布的Claude Fable 5模型在多项编程基准测试中展现出强劲实力,但其内置的安全护栏机制引发了科技界的广泛争议。该模型最初被设计为在检测到用...
Claude Opus 4.8实测封神!强到离谱,也贵到肉痛
Anthropic近期发布了全新大语言模型Claude Opus 4.8,将其定位为擅长编程、智能体任务和长时间推理的复杂任务模型,并同期宣布完成高额估值融资。该模型的发...
X-Era蝉联双榜单冠军,引领世界模型未来方向
真正支撑机械体作业的预测架构必须具备几何精确、动力合理及调用顺畅的复合特征。坐标系定位误差会直接诱发抓持失准或路径冲突;而日常发生的物体位移、力学...
SPEC CPU 2026发布,更新了什么?
标准性能评估公司近日正式发布SPEC CPU 2026基准测试套件,作为时隔九年的首个全新发展版本,该套将作为未来十年衡量CPU性能的核心标尺。新版本彻底更新了近...
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切争议
月之暗面近期发布的Kimi K2 Thinking模型引发了行业广泛关注。这款主打'模型即Agent'的开源产品在多项基准测试中表现优异,甚至超越GPT-5、Claude 4.5等顶级...
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Anthropic发布了其最新AI模型Claude Sonnet 4.5,宣称这是目前世界上最好的编码模型。该模型在专注度方面表现突出,能够持续处理复杂任务超过30小时,远超竞...
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板
全球最强开源医疗模型Baichuan-M2-32B由中国百川智能发布,该模型在OpenAI的HealthBench评测集上超越GPT-OSS-120B等前沿模型,成为除GPT-5外唯一在困难测试集...
Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!
Anthropic正式发布Claude 3.7 Sonnet模型,宣称这是其首个'混合推理模型',通过'标准思考'和'扩展思考模式'实现不同响应策略。该模型在编程领域表现突出,SWE...
阿里要开源史上最强推理模型,性能超过DeepSeek R1。
阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview,并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...
Grok3省流版:AI大佬Andrej Karpathy的真实点评
马斯克的AI初创公司xAI最新推出的大模型Grok3,经AI专家Andrej Karpathy两小时深度测试后,展现出与行业顶尖模型相抗衡的能力。在核心的思考模式测试中,Grok...
1
2




