无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

 

文章摘要


【关 键 词】 AI推理编排系统性能提升测试结果元系统

决定AI性能上限的关键因素正从底座模型转向外围的「推理编排」系统。最新研究显示,在大型语言模型(LLM)完全不变的情况下,仅通过优化推理编排系统就能显著提升AI的智力表现。初创公司Poetiq通过其开发的Agentic System(称为meta-system)在ARC-AGI-2测试集上运行GPT-5.2 X-High,取得了突破性成果。测试结果显示,GPT-5.2 X-High在PUBLIC-EVAL数据集上的成绩达到75%,比之前的SOTA模型高出约15%,同时每个问题的成本低于8美元。这一成绩的取得并未对模型进行任何再训练或特定优化,完全依赖于Poetiq的推理编排系统。

PUBLIC-EVAL数据集是ARC测试的一部分,包含基础推理任务和标准的NLP、数学推理测试,适合广泛的模型评测。而ARC-AGI-2则包含更复杂的推理问题,旨在考察模型的抽象推理、常识推理和创新能力。Poetiq的meta-system通过迭代式推理和自我审计机制,显著提升了模型的性能。迭代式推理允许系统多次调用LLM生成和改进解决方案,而自我审计机制则能自主判断何时终止推理过程,避免不必要的计算浪费。这种设计使得系统能够在多个不同模型上实现跨版本、跨模型族的性能提升,显示出强大的泛化能力。

Poetiq团队由6名成员组成,核心成员来自Google DeepMind。他们的meta-system不依赖特定的大模型,可以与任何前沿模型配合使用,如Gemini 3、GPT-5.1、Grok等。这种灵活性使得系统能够快速适配新模型,并在极短时间内取得SOTA成果。ARC Prize总裁Greg Kamradt对Poetiq的结果表示认可,认为其系统在模型交换方面表现出色。OpenAI总裁Greg Brockman也转推了GPT-5.2在ARC-AGI-2上超越人类基准成绩的消息。

然而,测试结果也引发了一些疑问。例如,有人指出性能提升主要来自测试框架和协调机制,而非模型特定的调优。Poetiq回应称,X-High版本通过更快收敛到正确答案,降低了每个任务的成本。此外,测试中简单问题可在8到10分钟内完成,而复杂问题则需在12小时内终止,显示出未来仍有改进空间。Poetiq强调,其meta-system的适配工作均在新模型发布前完成,且系统从未直接接触过ARC-AGI任务集,进一步证明了其推理策略的泛化能力。

这一突破表明,AI性能的提升不仅依赖于模型本身的改进,外围的推理编排系统同样至关重要。Poetiq的成果为AI领域提供了新的研究方向,即在模型之外通过优化推理过程来释放更大的潜力。这种方法的灵活性和高效性,尤其适合资源有限的小团队快速实现技术突破。

原文和模型


【原文链接】 阅读原文 [ 1548字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...