AI Agent 落地现状:成功率太低,即使用 GPT-4 也不到 15%

AI Agent 落地现状:成功率太低,即使用 GPT-4 也不到 15%

 

文章摘要


【关 键 词】 人工智能LLM进步现实挑战期望管理人机协同

人工智能领域,大型语言模型(LLM)取得了显著的进步,其性能、准确性和稳定性都有了大幅提升。然而,这些模型的综合能力似乎还不足以支撑一个全面的AI智能体。

针对AI智能体在宣传与实际表现上的差异,有观点指出智能体在宣传中看似强大,实则现实应用中问题重重。以WebArena排行榜的基准测试为例,即便是表现最佳的模型,成功率也仅为35.8%,而如GPT-4等知名模型的成功率更是低至14.9%。

对于AI智能体的定义,业界尚无共识。一般而言,它可以被视为一个具备决策能力的高级LLM,能在环境中执行任务。目前,构建AI智能体的主要方法有单一智能体和多智能体系统两种。

实践中,AI智能体面临诸多挑战,包括可靠性问题、性能和成本考量、法律责任及用户信任等。许多AI智能体初创公司仍在等待技术突破,以便产品化。

面对过度炒作的现实,作者强调大多数AI智能体尚未准备好承担关键任务。但随着基础模型和架构的进步,人们可以期待AI智能体在实际应用中取得更多成功。

作者认为,结合严格约束的LLM、评估数据、人机协同监督和传统工程方法,可以在自动化等复杂任务中实现可靠的结果。虽然AI智能体有望自动化一些单调的工作,但在没有人类干预的情况下执行复杂任务,如自动预订假期,短期内似乎不太可能实现。在此背景下,业界应设定现实的期望,并不断探索AI智能体的最佳前进道路。

网易AI智能绘画

原文和模型


【原文链接】 阅读原文 [ 2480字 | 10分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...