顶级模型Claude Sonnet 4.6与Gemini 3.1 Pro也来庆新春

344 0 0

文章摘要

春节期间，两款顶级闭源大语言模型Claude Sonnet 4.6与Gemini 3.1 Pro发布，同步展现出人工智能在电脑操作、复杂逻辑推理层面的全新进化。Claude Sonnet 4.6核心能力实现全面升维，在代码编写、长文本推理等技能上较前代大幅提升，且维持上一代计费标准不变，每百万Token输入3美元、输出15美元，用户可支付同等成本获得能力更强的辅助服务。该版本配备百万级Token上下文窗口，可同时处理几十篇专业论文或整个项目的底层源代码，完成高密度信息梳理与严密逻辑推演。内部测试数据显示，其在代码辅助工具场景以70%的胜率压倒前代产品，59%的工作场景下工程师更倾向选择该版本，表现优于此前发布的Opus 4.5，可大幅压缩虚假提示、幻觉错误等问题，代码优化能力突出，能够胜任此前仅最高级别模型可完成的高价值办公任务。

Claude Sonnet 4.6具备接近人类专家水准的电脑自主操作能力，可独立完成跨浏览器标签页收集信息、填写多步骤网页表单、复杂电子表格处理等过去仅熟练工人可完成的精细工作。研发团队针对提示词注入等潜在安全风险做了全面防御加固，该模型获得安全研究员给出的极高安全评级，亲社会人格属性稳定，应对高风险任务时严守安全底线，无核心价值观偏移隐患。其长文本推理能力还支撑其在虚拟商业经营模拟测试中展现出顶尖企业家级别的商业直觉，开发者平台新增自适应思考、扩展思考模式及上下文压缩功能，变相拉长历史信息记忆长度，API层面的网页搜索可自主编写代码过滤无效信息，提升回答质量的同时节约算力，执行代码、工具调用等功能已全面开放，可通过插件接入微软表格、各类金融商业数据库，实现外部商业数据的自动抓取整理。

Gemini 3.1 Pro逻辑推理能力较上一代实现翻倍，在考察未知问题解决能力的ARC-AGI-2基准测试中获得77.1%的高分，适配无标准答案的复杂专业课题处理需求。该模型基于第三代架构升级，可完成复杂专业内容通俗解释、海量数据梳理融合、创意项目落地辅助等工作，为深度思考版本Gemini 3 Deep Think提供算力基石与智慧支持，目前普通用户和开发者已可在谷歌全线产品中体验相关能力，两类大模型的进化正在推动人工智能快速融入人类工具生态。