Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点

AI-Agent5小时前发布 TMTPOSTAGI
66 0 0
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点

 

文章摘要


【关 键 词】 人工智能多模态模型推理能力长上下文Agent开发

谷歌发布最新AI模型Gemini 3,标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1和Claude 4.5等竞品,展现出代际级的技术突破。Gemini 3将被整合进Gemini应用、谷歌的AI搜索产品以及企业级产品,并逐步向订阅用户开放。

Gemini 3在推理能力上实现双重突破:基础性能全面提升与推理模式产品化创新。在GPQA Diamond等权威测试中,其准确率高达91.9%,在Humanity’s Last Exam测试中达到37.5%的分数,展示了解决复杂问题的卓越能力。模型不仅能独立完成托卡马克装置等离子体流动的可视化代码编写,还能同步创作诠释聚变物理学精髓的诗歌,实现理性与感性的结合。谷歌推出的Deep Think增强推理模式通过“思维签名”和“思考等级”两大创新,进一步提升了模型的长链路任务处理能力。

模型支持高达100万tokens的超长上下文长度,远超当前主流模型。这一能力相当于处理700页英文书籍或2小时的4K视频,且保持90%以上的信息保留率。在多模态理解方面,Gemini 3 Pro在MMMU-Pro和Video-MMMU测试中分别获得81%和87.6%的分数,重新定义了行业标准。

编码与Agent能力的跃升是Gemini 3最具颠覆性的更新。通过“代理式编码”和“可视化编码”两大创新,模型在LiveCodeBench Pro测试中以2439的Elo得分逼近专业程序员水平。在Agent能力方面,Gemini 3展现出强大的工具使用和长程规划能力,能自主完成复杂工作流,例如自动爬取数据、分析趋势、生成报告并部署可视化界面。

测试结果显示,Gemini 3在专业领域达到专家级人类水平。在识别18世纪手写文稿的测试中,其字符错误率仅为0.56%,较前代提升50%-70%。模型展现出的逐步符号推理能力,例如将“145”推断为“14磅5盎司”,表明其对历史记录背后的经济和文化系统具有深刻理解。

Gemini 3的发布具有重要战略意义,可能让谷歌在AI竞赛中重获领先地位。谷歌拥有自研专用芯片、在线搜索市场主导地位以及庞大的用户基础等独特优势。新模型不仅提供强大的能力,更构建了一个“可扩展、可定制、可落地”的智能基座,将加速AI从实验室走向实际应用的进程。

Gemini 3的推出将推动AI行业在推理能力、多模态融合和Agent开发等领域的全面进步。对于用户和开发者而言,它带来的不仅是更强大的工具,更是全新的工作和交互方式,标志着人工智能技术发展进入新阶段。

原文和模型


【原文链接】 阅读原文 [ 2181字 | 9分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...