刚刚,OpenAI通用智能体ChatGPT Agent正式登场

文章摘要
【关 键 词】 人工智能、智能代理、任务自动化、技术升级、基准测试
OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务,包括自动浏览日历、生成可编辑PPT、运行代码等操作。其核心突破在于整合了Operator的网页交互能力、deep research的信息综合分析能力以及ChatGPT的智能推理能力,形成统一的智能代理系统。目前该功能已向Pro、Plus和Team订阅用户开放,企业版和教育版预计夏季晚些时候推出。
技术架构方面,ChatGPT Agent配备了可视化浏览器、文本浏览器、终端命令行和API调用等全套工具。通过虚拟计算环境保留任务上下文,能够根据需求在推理与执行间灵活切换。用户可授权其连接Gmail、GitHub等应用获取信息,也可随时中断任务进程。基准测试显示,支持该Agent的模型在Humanity’s Last Exam评估中达到41.6%的通过率,在FrontierMath数学测试中取得27.4%的准确率,显著超越前代模型。电子表格处理能力尤为突出,在SpreadsheetBench测试中以45.5%的得分远超Excel Copilot的20%。
实际应用场景展示了其广泛潜力。从查询城市年度财务报告到制定包含航班、酒店、活动的详细行程,Agent能处理涉及多步骤的复合型任务。用户案例显示,它能在20分钟内完成包含税务分析、投资计算的退休规划方案,但执行效率仍有提升空间。安全机制方面,OpenAI强调内置了多层防护措施,建议用户遵循最小权限原则,避免高风险授权。
尽管存在执行耗时较长等局限,这项技术仍被视为迈向AGI的重要里程碑。山姆·奥特曼指出,观察AI自主思考、规划和执行任务的过程,让人首次真切感受到通用人工智能的雏形。随着持续迭代,预计Agent将在专业服务、数据分析等领域创造更大价值,但社会适应与技术风险管控需同步推进。当前阶段更适合作为辅助工具探索可能性,而非替代关键决策。
原文和模型
【原文链接】 阅读原文 [ 3904字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆