标签:评测体系

18个月,中国Token消耗狂飙300倍!别乱烧钱了,清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临前所未有的挑战与机遇。随着Clawdbot等应用的爆发式增长,Token消耗量在一年半内激增300倍,达到日均30万亿的规模。这种爆炸式增...

18个月,中国Token消化狂飙300倍!别乱烧钱了,清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临严重的'黑盒'焦虑,服务碎片化和不透明性导致开发者面临巨大挑战。数据显示,中国大模型数量已超过1500个,日均Token消耗量从202...

我们对 Coding Agent 的评测,可能搞错了方向

当前对 Coding Agent 的评测存在方向性偏差,用户不满的核心并非功能缺失,而是过程规范遵循的失败。典型场景包括无视禁用emoji的提示、违反先备份后修改的指...

北交大 x 小米 EV 团队:一次关于世界模型「靠不靠谱」的系统复盘

自动驾驶领域的世界模型研究正面临关键转折点。研究表明,当前模型在生成指标上的进步并未线性转化为系统安全性的提升,这一现象源于评测体系与真实驾驶需求...

主流开源大模型生态解析

开源生态已成为驱动AI领域发展的核心力量,2025年全球开源大模型形成了由Llama、GLM、Qwen和DeepSeek构成的'四强争霸'格局。Meta的Llama系列作为开源世界的奠...

全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉

智源研究院于2024年12月19日发布了下半年大模型综合评测结果,涉及100余个开源和商业闭源模型,覆盖文本、语音、图像和视频等多个领域。此次评测在5月的基础...

智源发布FlagEval「百模」评测结果,丈量模型生态变局

智源研究院于2024年12月19日发布了对国内外100余个大模型的综合及专项评测结果。此次评测不仅扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用...

100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态

智源研究院于2024年12月19日发布了国内外100余个大模型的综合及专项评测结果。评测显示,大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,而语...