GPT-5.2来了!首个「专家级」AI复仇成功,牛马打工人终于得救了

AIGC动态5小时前发布 AIera
44 0 0
GPT-5.2来了!首个「专家级」AI复仇成功,牛马打工人终于得救了

 

文章摘要


【关 键 词】 AI模型性能提升专业工作编程能力视觉理解

OpenAI近日发布了新一代GPT-5.2系列模型,包含Instant、Thinking和Pro三个版本,在多项专业任务中展现出显著优势。该系列模型在通用智能、长文本理解、工具调用及视觉能力上实现全面突破,尤其在专业工作场景表现突出。基准测试显示,GPT-5.2 Pro在ARC-AGI-2评估中以52.9%准确率登顶,其专业能力已超越人类专家水平——在GDPval职业知识测试中,70.9%的情况下优于行业顶尖人士,且完成任务速度比人类快11倍。

编程能力方面创下新纪录,GPT-5.2 Thinking在SWE-Bench Pro测试中达到55.6%的解决率,能可靠地调试生产环境代码并实现端到端修复。对于全栈开发,该模型可快速生成包含3D元素的复杂UI界面,仅凭单条提示词即可完成海浪模拟、节日贺卡制作器等完整应用开发。视觉理解能力同步跃升,对技术图表、仪表板的识别错误率降低50%,能精确定位主板组件等复杂图像中的元素位置。

长文本处理取得里程碑式进展,支持40万token上下文窗口,在OpenAI MRCRv2长文档测试中实现接近100%的准确率。多步推理能力显著增强,在电信服务案例测试中,模型可自主完成航班改签、医疗座位协调等连续操作,工作流完整性达98.7%。研究领域同样突破显著,GPT-5.2 Pro在统计学习理论中独立完成数学证明,相关成果已形成学术论文,开创了AI主导论证、人类负责验证的新科研范式。

价格策略上,虽然输入输出成本较前代上涨40%,但凭借更高的token效率,实际性价比反而提升。目前该系列已向付费用户开放,GPT-5.1将保留三个月后停用。此次发布正值OpenAI成立十周年,官方同时回顾了从GPT-1到ChatGPT的技术演进历程,并预告下周将推出新的”圣诞礼物”。

原文和模型


【原文链接】 阅读原文 [ 4394字 | 18分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...