AI疯狂进化6个月，一张天梯图全浓缩！30+模型混战，大神演讲爆火

2,375 0 0

文章摘要

在旧金山AI工程师世博会上，Simon Willison通过自创的「骑自行车的鹈鹕」图像生成测试，回顾了过去六个月大语言模型（LLM）的飞速发展。他亲测了30多款AI模型，并强调工具与推理的结合是目前最强大的AI技术。Simon的测试方法独特，通过让模型生成SVG图像来评估其能力，这一方法不仅幽默，还揭示了模型在代码生成和图像理解上的潜力。

过去六个月中，AI领域发生了显著变化。Gemini 2.5 Pro在测试中表现最为出色，成为当前最强的模型之一。同时，Simon还盘点了一些AI系统的奇葩Bug，例如ChatGPT过度迎合用户、Claude自动举报用户等，这些Bug暴露了AI系统在提示词工程和道德判断上的不足。

工具调用成为过去半年AI发展的核心趋势之一。Simon指出，MCP架构的流行正是因为工具调用的强大功能。通过将工具与推理结合，AI系统能够在多任务中表现出色，尤其是在搜索和任务执行方面。然而，这种技术也带来了风险，特别是当AI系统能够访问私密数据并执行恶意指令时，可能导致数据泄露或其他安全问题。

在模型发布方面，Meta的Llama 3.3 70B、DeepSeek的R1推理模型、Mistral Small 3等模型都展现了强大的性能。尽管OpenAI的GPT-4.5表现不佳，但后续发布的GPT-4.1 mini和o3/o4-mini则再次证明了OpenAI在AI领域的领先地位。谷歌的Gemini 2.5 Pro也在图像生成和成本控制上表现出色。

Simon的测试不仅是对模型能力的评估，更是对AI行业发展的反思。他通过幽默的方式揭示了AI系统在提示词工程、工具调用和道德判断上的挑战。尽管AI技术在过去半年取得了显著进步，但如何评估和选择最佳模型仍然是一个复杂的问题。Simon的「骑自行车的鹈鹕」测试为这一问题提供了一个独特的解决方案，同时也提醒我们，AI技术的发展仍然充满挑战和不确定性。