OpenAI新Agent遭中国24人初创团队碾压！实测成本、质量全输惨，海外用户：中国Agent代差领先

1,582 0 0

文章摘要

OpenAI今日凌晨推出了ChatGPT Agent功能，标志着其正式进入“智能体人工智能（agentic AI）”领域。这一功能允许AI助手通过控制自身的网页浏览器完成多步骤任务，同时用户仍保有控制权。ChatGPT Agent结合了早期Operator工具和Deep Research功能的能力，能够浏览网站、运行代码和创建文档。在执行某些会产生现实影响的操作前，系统需要获得用户许可，用户也可以随时中断任务或接管浏览器的控制权。系统还包含“观察模式”，适用于需要用户全程监督的任务。

ChatGPT Agent利用自身的虚拟计算机执行任务，能够在推理和行动之间流畅切换，处理复杂的工作流程。用户可以在ChatGPT界面内的一个窗口中看到AI在其专属的私人沙盒中执行的所有操作，该沙盒拥有自己的虚拟操作系统和可访问真实互联网的网页浏览器，但不会控制用户的个人设备。OpenAI表示，用户可以让Agent处理各种需求，如为特定场合搭配并购买一套服装、制作PowerPoint演示文稿、规划膳食，或用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口（API）连接来完成这些任务，其中包括能与Gmail和GitHub等应用程序集成的“ChatGPT连接器”。

ChatGPT Agent在其自身的基准测试中达到了最先进的性能。在“人类终极考试”中，该Agent的准确率为41.6%，而在“前沿数学”测试中，其准确率达到27.4%。OpenAI还宣称，ChatGPT Agent在数据分析和建模等数据科学任务上的表现优于人类。在DSBench基准测试中，该系统在数据分析任务上的得分是89.9%，在数据建模任务上的得分是85.5%。此外，该系统在OpenAI的BrowseComp测试中的得分达68.9%，在SpreadsheetBench测试中得分达45.5%，均高于OpenAI的其他AI模型。

尽管OpenAI表示Agent可以为用户制作PowerPoint演示文稿，但该公司承认，幻灯片生成功能仍处于测试阶段，其输出在格式和精致度方面可能显得“较为基础”。有体验者称，ChatGPT Agent 9分钟就做出了稍加修改即能达到实用水平的幻灯片。据一位用户称，OpenAI的Agent模式还能够通过强化学习自我改进输出的演示幻灯片。

实际效果显示，ChatGPT Agent完成多步骤任务的效果会因具体情况而存在巨大差异。有用户指出，ChatGPT Agent在PaperBench、SWE-Bench验证、OpenAI PRs和OpenAI Research Engineer面试问题上的表现低于o3。还有用户在分享其用ChatGPT Agent“分析Kaggle上的一个数据集并将其转换为PPT和Excel”的案例时表示，“它虽然没有出现操作错误，但其中一些数据不太对劲。”在他反馈之后，该系统才弄清楚数据存在问题以及问题的原因。

据外媒报道，ChatGPT Agent背后的AI模型并非一种完备的问题解决型智能，而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性，但也存在诸多盲区。OpenAI是通过计算机使用和工具使用的示例来训练这个Agent及其组件的，面对任何超出训练数据所包含示例范围的任务，都可能难以完成。例如，在一项“网络靶场”的评估中，ChatGPT Agent被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时，它无法完成任务。虽然它能成功执行初始研究步骤，如识别网络中的服务器，但难以进一步推进，也无法将必要的手段串联起来以达成最终目标。

一位开发者表示，在其大多数AI使用场景中，目前根本不必选择ChatGPT Agent。“o3已经完全能满足需求，性价比很高，根本没必要启动一整套带浏览器和命令行界面的虚拟机。”而且，他指出，OpenAI把大量复杂技术打包成了对消费者友好的产品，但实现这种高度的用户友好性是以牺牲定制化和可组合性为代价的，这在目前限制了它的能力。

海外网友将ChatGPT Agent与Manus AI、Genspark等中国创业者所推的AI Agent产品做了对比。其中，Genspark是前百度集团副总裁、原小度科技CEO景鲲与原小度科技CTO朱凯华联合创立的公司MainFunc所推出的通用AI智能体，最初定位为AI搜索引擎，但随后转型为超级智能体（Super Agent），能够自主思考、规划任务并调用工具完成复杂的多步骤任务，ARR（年度经常性收入）在上线9天后便突破了1000万美元。多年AI产品负责人Shubham Saboo公开评价道，“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面，早已遥遥领先。”

今早，MainFunc联合创始人兼CEO景鲲（Eric Jing）在X平台表示，他们使用今天早上OpenAI发布演示中相同的提示，一次成功并得到了以下结果：耗时仅为其几分之一，成本也只是其几分之一，质量却高出好几倍。Saboo不仅转发了该对比结果视频还直言，“Genspark Super Agent真的能一次性击败OpenAI的ChatGPT。”景鲲激动地说道：“我从未想过会有这一天——作为一个只有24人的小初创公司，我们竟然能领先这么多……甚至领先于OpenAI……”他在评论区放出了其测试任务的完整回放。

对此，有海外网友点赞道，“你们让我惊叹，一个小团队竟能如此成功。”一位用户则指出，“根据我们部分客户的使用案例来看，Genspark在某些任务上确实更快，而其他任务只有Agent Mode能起作用（我们也测试了Manus、Skywork和Flowith）。”同时，他也对Genspark给出了极高的评价：“你们（Genspark）制作的幻灯片绝对是碾压级的第一名，其他产品根本难以企及。”