标签：LLM评估

谷歌推出 LLM-Evalkit，为提示词工程带来秩序与可衡量性

谷歌近日推出了名为LLM-Evalkit的开源框架，该工具基于Vertex AI SDK构建，旨在解决大语言模型（LLM）提示词工程中的核心痛点。通过将分散的文档和基于猜测的...

AIGC动态

5个月前

挖掘「缝合」的潜力：CapaBench 揭示 LLM 智能体中各个模块的作用

CapaBench框架通过模块化设计和合作博弈论中的Shapley值方法，系统性评估大型语言模型代理中不同功能模块的贡献度。该框架将代理系统解构为规划、推理、行动...

AIGC动态

1年前 (2025)

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

斯坦福大学的研究团队在一项为期一年的大规模实验中，对大型语言模型（LLMs）在科学研究创意生成方面的能力进行了评估。研究结果表明，LLMs在产生新颖想法方...

AIGC动态

2年前 (2024)