Mistral的首个强推理模型:拥抱开源,推理速度快10倍

文章摘要
欧洲人工智能公司Mistral AI近期发布了全新的大语言模型系列Magistral,该系列展现了强大的推理能力,能够通过不断反思解决更复杂的任务。Magistral系列包含两个版本:面向企业客户的大型专有模型Magistral Medium,以及一个24B参数的开源版本Magistral Small。开源版本使用Apache 2.0许可,允许自由使用和商用化,而Magistral Medium则通过Mistral的Le Chat界面和La Plateforme API访问。
在基准测试中,Magistral Medium在AIME2024上的得分为73.6%,其中多数投票为64%,得分为90%。Magistral Small的得分分别为70.7%和83.3%。新模型在研究生水平的问答基准测试GPQA Diamond和编程挑战LiveCodeBench中也表现出色。Magistral Medium展示了其编程能力,能够生成模拟重力和摩擦力的代码。此外,Magistral模型在多种语言中保持高保真推理,尤其适合英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和中文的推理。
借助Le Chat中的Flash Answers,Magistral Medium实现了比大多数竞争对手多达10倍的token吞吐量,这使得大规模的实时推理和用户反馈成为可能。Mistral认为Magistral非常适合需要长时间思考和更高准确度的通用任务,相比非推理类的大模型,提升更为明显。
在技术报告中,Mistral表示Magistral应用了自主研发的可扩展强化学习流水线,采用自下而上的方法,完全依赖自己的模型和基础设施。基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。Magistral的核心设计原则是使用与用户相同的语言进行推理,通过简单的修改使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。
Mistral正在将Magistral Medium模型应用于包括Amazon SageMaker在内的主流云平台,Azure AI、IBM WatsonX和Google Cloud Marketplace也将紧随其后。在使用成本方面,Magistral Medium定位为一款独特的高端产品,价格大幅上涨。每百万输入token价格为2美元,每百万输出token为5美元,相比老款Mistral Medium 3价格大幅上涨。然而,与外部竞争对手相比,Magistral Medium的定价策略极具竞争力,输入成本比OpenAI最新型号便宜,与Gemini 2.5 Pro的价格处于同一水平,输出成本也远低于这两款产品。
Magistral API与其他领先LLM的推理成本对比显示,推理速度比竞品快10倍的竞争优势确实很大。Mistral的目标是从此版本开始快速迭代模型,进一步提升其性能和市场竞争力。
原文和模型
【原文链接】 阅读原文 [ 1304字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆