谷歌最新 Gemini Agent 爆击GPT-5.2？人类最后考试得分见分晓！网友：Altman又该发“红色警报”了

484 0 0

文章摘要

全球人工智能领域的竞争正进入白热化阶段，谷歌与OpenAI在同一天发布重大更新，凸显了行业竞争的激烈程度。谷歌推出全新Gemini Deep Research版本，首次开放嵌入式研究智能体API；与此同时，OpenAI正式发布GPT-5.2（代号Garlic）。这两家科技巨头的竞争焦点集中在智能体的未来发展、基础大模型能力边界以及应用生态主导权上，标志着行业进入了一个前所未有的焦灼阶段。

谷歌的Deep Research Agent展现了显著的技术突破。该工具基于Gemini 3 Pro核心模型构建，具备模型升级、推理稳定性突破和交互能力全面增强三大关键优势。谷歌采用多步强化学习训练策略，确保AI在复杂研究任务中保持推理路径稳定，显著减少幻觉概率，并实现决策过程的一致性。这一突破使得Deep Research Agent能够承担传统LLM无法胜任的任务，如跨天级研究、政策评估和多源数据整合。此外，其超大规模上下文处理能力和自动附上可追溯引用来源的功能，使其成为提供带证据链研究结果的工具，而非简单的生成内容。

谷歌还推出了两项关键新能力：开源网络研究智能体基准DeepSearchQA和全新交互API。DeepSearchQA包含17个领域共900道“因果链”任务，旨在测试智能体在复杂多步骤信息检索任务中的表现。Interactions API则允许开发者以结构化方式控制智能体的行为状态和推理步骤，标志着智能体从“玩具”向“生产环境”工具的转变。基准测试结果显示，Deep Research Agent在“人类最后的考试”（HLE）、DeepSearchQA和BrowseComp测试中均取得领先成绩，展现了其在研究型任务中的强大能力。

技术社区对谷歌的更新反应热烈，许多开发者肯定其将智能体工程化的努力。然而，也有观点对谷歌使用自家基准测试结果持谨慎态度，呼吁第三方测试验证。值得注意的是，谷歌与OpenAI的竞争已进入“贴身肉搏”阶段。Gemini 3 Pro和GPT-5.2在能力上的差距已缩小至毫厘级别，仅在特定任务场景中体现差异。谷歌通过Deep Research Agent和Interactions API加入智能体战争，而OpenAI则凭借其通用性和自由度的智能体体系保持优势。

这场竞争的核心是未来智能体框架标准的主导权。谷歌和OpenAI都在推动智能体从工具向执行引擎的转变，预示着软件开发将以智能体为核心的新时代。两者的技术路线虽有差异，但目标一致：定义下一代计算范式。随着模型能力的不断提升和智能体生态的逐步完善，人工智能领域的竞争将进一步加剧，行业格局或将迎来新的洗牌。