标签：评测争议

AI 下半场，LLM Benchmark 要补全什么？

当前大语言模型评测领域，通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题，推动业界愈发重视评测体系的有效性，对大语言模型评...

AIGC动态

4小时前