评测体系 | 学习AIGC

AI 下半场，LLM Benchmark 要补全什么？

当前大语言模型评测领域，通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题，推动业界愈发重视评测体系的有效性，对大语言模型评...

AIGC动态

1个月前

18个月，中国Token消耗狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临前所未有的挑战与机遇。随着Clawdbot等应用的爆发式增长，Token消耗量在一年半内激增300倍，达到日均30万亿的规模。这种爆炸式增...

AI-Agent

2个月前

18个月，中国Token消化狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临严重的'黑盒'焦虑，服务碎片化和不透明性导致开发者面临巨大挑战。数据显示，中国大模型数量已超过1500个，日均Token消耗量从202...

AIGC动态

2个月前

我们对 Coding Agent 的评测，可能搞错了方向

当前对 Coding Agent 的评测存在方向性偏差，用户不满的核心并非功能缺失，而是过程规范遵循的失败。典型场景包括无视禁用emoji的提示、违反先备份后修改的指...

AI-Agent

3个月前

北交大 x 小米 EV 团队：一次关于世界模型「靠不靠谱」的系统复盘

自动驾驶领域的世界模型研究正面临关键转折点。研究表明，当前模型在生成指标上的进步并未线性转化为系统安全性的提升，这一现象源于评测体系与真实驾驶需求...

AIGC动态

4个月前

主流开源大模型生态解析

开源生态已成为驱动AI领域发展的核心力量，2025年全球开源大模型形成了由Llama、GLM、Qwen和DeepSeek构成的'四强争霸'格局。Meta的Llama系列作为开源世界的奠...

AIGC动态

5个月前

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

智源研究院于2024年12月19日发布了下半年大模型综合评测结果，涉及100余个开源和商业闭源模型，覆盖文本、语音、图像和视频等多个领域。此次评测在5月的基础...

AIGC动态

1年前 (2024)

智源发布FlagEval「百模」评测结果，丈量模型生态变局

智源研究院于2024年12月19日发布了对国内外100余个大模型的综合及专项评测结果。此次评测不仅扩展了任务解决能力的内涵，新增了数据处理、高级编程和工具调用...

AIGC动态

1年前 (2024)

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

智源研究院于2024年12月19日发布了国内外100余个大模型的综合及专项评测结果。评测显示，大模型发展更注重综合能力提升与实际应用，多模态模型发展迅速，而语...

AIGC动态

1年前 (2024)

标签：评测体系

AI 下半场，LLM Benchmark 要补全什么？

18个月，中国Token消耗狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

18个月，中国Token消化狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

我们对 Coding Agent 的评测，可能搞错了方向

北交大 x 小米 EV 团队：一次关于世界模型「靠不靠谱」的系统复盘

主流开源大模型生态解析

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

智源发布FlagEval「百模」评测结果，丈量模型生态变局

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

热门网址

标签：评测体系

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址