标签:评测争议

AI 下半场,LLM Benchmark 要补全什么?

当前大语言模型评测领域,通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题,推动业界愈发重视评测体系的有效性,对大语言模型评...