标签:性能测试
Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说
阿里最新发布的推理模型Qwen3-Max-Thinking引起广泛关注,该模型是Qwen3-Max-Preview的推理增强版本,目前仍处于训练阶段。尽管是中间检查点模型,但结合工具...
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
在新一代代码生成模型不断涌现的背景下,开发者关注模型代码编写能力及对代码运行的理解。多数大型语言模型虽能输出语法正确的代码,但在“理解执行”方面存在...
美团新模型有点东西:像调度外卖运力一样优化大模型
美团最新发布的 LongCat - Flash 模型将外卖“派单逻辑”应用于 AI 世界,精准调度算力,试图在大模型赛道开辟新战场。技术创新方面,LongCat - Flash 的特别之...
美团新模型有点东西:像调度外卖小哥一样优化大模型
美团将外卖“派单逻辑”应用于AI世界,推出LongCat - Flash模型,精准调度算力,试图在大模型赛道开辟新战场。技术创新方面,LongCat - Flash的特别之处在于“精...
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
Grok 4的发布标志着xAI在人工智能领域的又一次重大突破。这款通用模型不仅跳过了Grok 3.5,还带来了多个专为特定任务设计的模型,包括编码模型、多模态代理和...
比10年专业医生准4倍!微软发布突破性医疗AI系统
微软最新发布的医疗AI系统MAI-DxO通过模型无关的设计实现了突破性进展,能够适配不同厂商的语言模型并显著提升诊断性能。该系统模拟真实医生的诊断流程,在测...
这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash
Inception Labs推出的Mercury是首款专为聊天应用量身定制的商业级扩散LLM,标志着扩散模型在语言生成领域的重大突破。Mercury的核心优势在于其超快的速度和高...
小红书开源首个大模型,11万亿非合成训练数据
小红书近期开源了其首个大模型dots.llm1,这是一个1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,显著降低了训练和推理成本。dots.llm1的...
苹果开源通用视觉模型:创新训练方法,超1000颗星
苹果公司的研究团队最近发布了一款名为AIMv2的通用多模态视觉模型,该模型具有300M、600M、1.2B和2.7B四种参数规模,并且整体能耗低,使其能够适应手机、PC等...
Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek
市场反馈显示,该功能与普通AI搜索形成明显差异:普通搜索侧重快速获取表面信息,而Deep Research专攻多层次的深度分析,处理时间从5分钟到半小时不等。用户...





