GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

2,659 0 0

文章摘要

GPT-4.1模型的发布标志着OpenAI在AI领域的最新进展，尽管其性能在某些方面超越了前代模型，但在与谷歌的Gemini 2.5 Pro的竞争中仍显不足。GPT-4.1以其强大的编码能力和百万token的上下文处理能力，提供了更具性价比的解决方案。然而，实际测试显示，尽管GPT-4.1在编码任务中表现出色，但在推理和数学能力上仍不及Gemini 2.5 Pro和Claude 3.7 Sonnet。GPT-4.1在软件工程基准测试中取得了55%的高分，但在Livebench基准评估中，其推理、编码和数学实力均落后于Gemini 2.5。

OpenAI的战略重心似乎在于将ChatGPT与API业务分离，优化每一美元的智能，并致力于将ChatGPT打造成一个独立于API的单体应用。ChatGPT的记忆功能得到了改进，且OpenAI正在通过GPT-4.1等模型，将API和ChatGPT的处理方式区分开来。这一策略旨在使ChatGPT在个性、氛围感和娱乐性方面与市场上其他AI产品形成差异化。

尽管OpenAI的模型在学术评估中表现强劲，但在实际应用中，它们需要执行的是重复性的小众任务。OpenAI的新模型在代码生成方面取得了显著进步，但在编码和数学评估上仍落后于顶尖模型。此外，OpenAI的模型在成本上与Gemini相比并无明显优势，甚至在某些情况下价格更高。

总的来说，OpenAI在AI领域的竞争中依然不可小觑，但其面临的挑战也显而易见。OpenAI需要在Gemini已经占据优势的前沿领域实现突破，以在API业务上取得成功。尽管OpenAI在产品层面建立了巨大的先发优势，但要完全实现其愿景，仍需克服诸多技术难题和市场挑战。