标签：数据构建

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）的生成能力虽然强大，但其输出是否符合人类偏好需要依赖奖励模型（Reward Model, RM）的精准评判。奖励模型在大模型训练中扮演着关键角色，...

AIGC动态

9个月前