谷歌Gemini 2.5全线爆发！勇战「濒死恐慌」，却被丝血宝可梦吓到当场宕机

1,709 0 0

文章摘要

谷歌最新发布的Gemini 2.5系列模型，标志着其在人工智能领域的又一次重大突破。此次更新包括Gemini 2.5 Pro、Gemini 2.5 Flash以及首次亮相的Gemini 2.5 Flash-Lite。这些模型不仅在性能上有所提升，还在性价比上建立了强大的护城河。Gemini 2.5 Flash-Lite作为速度最快、性价比最高的模型，特别适合翻译、分类等高吞吐量、低延迟敏感型任务。其输入价格仅为0.1美元/百万token，输出价格为0.4美元/百万token，展现了极高的经济性。

Gemini 2.5系列模型采用了稀疏MoE（Mixture-of-Experts）架构，原生支持文本、视觉和音频输入的多模态处理。Gemini 2.5 Pro在处理长达100万个token的长上下文输入序列方面超越了前代模型，并具备顶尖的多模态能力，能够解析长达3小时的视频内容。此外，Gemini 2.5系列模型在编程、数学和推理任务上比前代模型都有大幅的跃升，尤其是在推理方面刷新了多项基准测试的SOTA（State of the Art）。

在特定领域能力的优化上，Gemini 2.5系列模型展现了显著的进步。代码处理能力通过优化预训练与后训练流程，提升了多模态开发效率与实用性。事实准确性方面，Gemini 2.5增强了多跳推理与工具协同分析力。长上下文处理能力显著提升，甚至能从46分钟视频中准确回忆1秒事件。多语言能力覆盖400多种语言，特别是在中文、日语、韩语等语言中提升显著。音频生成与理解能力双进化，支持超过200种语言的流式输入输出。视频理解与内容生成突破，将视频处理效率从每帧258个视觉token优化为66个，使模型可在100万token窗口内处理约3小时视频。

Gemini 2.5系列模型还展现了在游戏中的超强推理能力与长时程任务连贯性。在挑战「宝可梦」游戏中，Gemini 2.5 Pro在设定超800小时长期目标中，成功挑战了整个游戏，并在第二次自主运行时，完成的时间几乎缩短一半。然而，当宝可梦濒临死亡时，Gemini 2.5 Pro会进入一种「慌乱」的状态，导致推理能力出现质性下降，这一现象虽然AI没有情绪，但其行为却像人类在压力下做出仓促决定一样。

总的来说，Gemini 2.5系列模型不仅在技术上实现了重大突破，还在实际应用中展现了强大的潜力。谷歌希望通过Gemini 2.X系列模型，打造真正的融合体系，串联起谷歌所有服务的那条线，从而为用户提供更加智能、高效的服务体验。