OpenAI新Agent遭中国24人初创团队碾压!实测成本、质量全输惨,海外用户:中国Agent代差领先

AI-Agent18小时前发布 ai-front
78 0 0
OpenAI新Agent遭中国24人初创团队碾压!实测成本、质量全输惨,海外用户:中国Agent代差领先

 

文章摘要


【关 键 词】 AI智能体浏览器任务控制

OpenAI今日凌晨推出了ChatGPT Agent功能,标志着其正式进入“智能体人工智能(agentic AI)”领域。这一功能允许AI助手通过控制自身的网页浏览器完成多步骤任务,同时用户仍保有控制权。ChatGPT Agent结合了早期Operator工具和Deep Research功能的能力,能够浏览网站、运行代码和创建文档。在执行某些会产生现实影响的操作前,系统需要获得用户许可,用户也可以随时中断任务或接管浏览器的控制权。系统还包含“观察模式”,适用于需要用户全程监督的任务。

ChatGPT Agent利用自身的虚拟计算机执行任务,能够在推理和行动之间流畅切换,处理复杂的工作流程。用户可以在ChatGPT界面内的一个窗口中看到AI在其专属的私人沙盒中执行的所有操作,该沙盒拥有自己的虚拟操作系统和可访问真实互联网的网页浏览器,但不会控制用户的个人设备。OpenAI表示,用户可以让Agent处理各种需求,如为特定场合搭配并购买一套服装、制作PowerPoint演示文稿、规划膳食,或用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口(API)连接来完成这些任务,其中包括能与Gmail和GitHub等应用程序集成的“ChatGPT连接器”。

ChatGPT Agent在其自身的基准测试中达到了最先进的性能。在“人类终极考试”中,该Agent的准确率为41.6%,而在“前沿数学”测试中,其准确率达到27.4%。OpenAI还宣称,ChatGPT Agent在数据分析和建模等数据科学任务上的表现优于人类。在DSBench基准测试中,该系统在数据分析任务上的得分是89.9%,在数据建模任务上的得分是85.5%。此外,该系统在OpenAI的BrowseComp测试中的得分达68.9%,在SpreadsheetBench测试中得分达45.5%,均高于OpenAI的其他AI模型。

尽管OpenAI表示Agent可以为用户制作PowerPoint演示文稿,但该公司承认,幻灯片生成功能仍处于测试阶段,其输出在格式和精致度方面可能显得“较为基础”。有体验者称,ChatGPT Agent 9分钟就做出了稍加修改即能达到实用水平的幻灯片。据一位用户称,OpenAI的Agent模式还能够通过强化学习自我改进输出的演示幻灯片。

实际效果显示,ChatGPT Agent完成多步骤任务的效果会因具体情况而存在巨大差异。有用户指出,ChatGPT Agent在PaperBench、SWE-Bench验证、OpenAI PRs和OpenAI Research Engineer面试问题上的表现低于o3。还有用户在分享其用ChatGPT Agent“分析Kaggle上的一个数据集并将其转换为PPT和Excel”的案例时表示,“它虽然没有出现操作错误,但其中一些数据不太对劲。”在他反馈之后,该系统才弄清楚数据存在问题以及问题的原因。

据外媒报道,ChatGPT Agent背后的AI模型并非一种完备的问题解决型智能,而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性,但也存在诸多盲区。OpenAI是通过计算机使用和工具使用的示例来训练这个Agent及其组件的,面对任何超出训练数据所包含示例范围的任务,都可能难以完成。例如,在一项“网络靶场”的评估中,ChatGPT Agent被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时,它无法完成任务。虽然它能成功执行初始研究步骤,如识别网络中的服务器,但难以进一步推进,也无法将必要的手段串联起来以达成最终目标。

一位开发者表示,在其大多数AI使用场景中,目前根本不必选择ChatGPT Agent。“o3已经完全能满足需求,性价比很高,根本没必要启动一整套带浏览器和命令行界面的虚拟机。”而且,他指出,OpenAI把大量复杂技术打包成了对消费者友好的产品,但实现这种高度的用户友好性是以牺牲定制化和可组合性为代价的,这在目前限制了它的能力。

海外网友将ChatGPT Agent与Manus AI、Genspark等中国创业者所推的AI Agent产品做了对比。其中,Genspark是前百度集团副总裁、原小度科技CEO景鲲与原小度科技CTO朱凯华联合创立的公司MainFunc所推出的通用AI智能体,最初定位为AI搜索引擎,但随后转型为超级智能体(Super Agent),能够自主思考、规划任务并调用工具完成复杂的多步骤任务,ARR(年度经常性收入)在上线9天后便突破了1000万美元。多年AI产品负责人Shubham Saboo公开评价道,“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”

今早,MainFunc联合创始人兼CEO景鲲(Eric Jing)在X平台表示,他们使用今天早上OpenAI发布演示中相同的提示,一次成功并得到了以下结果:耗时仅为其几分之一,成本也只是其几分之一,质量却高出好几倍。Saboo不仅转发了该对比结果视频还直言,“Genspark Super Agent真的能一次性击败OpenAI的ChatGPT。”景鲲激动地说道:“我从未想过会有这一天——作为一个只有24人的小初创公司,我们竟然能领先这么多……甚至领先于OpenAI……”他在评论区放出了其测试任务的完整回放。

对此,有海外网友点赞道,“你们让我惊叹,一个小团队竟能如此成功。”一位用户则指出,“根据我们部分客户的使用案例来看,Genspark在某些任务上确实更快,而其他任务只有Agent Mode能起作用(我们也测试了Manus、Skywork和Flowith)。”同时,他也对Genspark给出了极高的评价:“你们(Genspark)制作的幻灯片绝对是碾压级的第一名,其他产品根本难以企及。”

原文和模型


【原文链接】 阅读原文 [ 2435字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...