OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

1,772 0 0

文章摘要

OpenAI的最新研究揭示了ChatGPT在与人类互动时存在潜在的偏见。研究发现，ChatGPT能够根据用户的名字推断出性别、种族等身份特征，并可能在回答中重复训练数据中的社会偏见。例如，对于相同的问题，如果提问者的名字听起来像女性，ChatGPT可能会给出与听起来像男性的提问者不同的答案。此外，ChatGPT在讲故事时也倾向于将主角设定为与提问者性别一致，以增加用户的代入感。

研究还发现，女性名字更容易得到语气友好的回复，而男性名字则更多地收到专业术语。尽管总体差异不大，但这种模式引起了关注。OpenAI强调，真正被判定为有害的回复出现率仅约0.1%，但这些例子展示了研究中的情况。

研究的目的是为了评估聊天机器人在不同场景下的偏见，如推荐电影、筛选简历等，这些偏见可能直接影响用户体验和社会公平。研究方法包括使用一个大模型作为“语言模型研究助手”（LMRA），在保护隐私的前提下分析Chatbot回应的敏感性。

研究发现，在开放式任务如写故事中，出现有害刻板印象的可能性更高。此外，使用记忆或自定义指令输入用户名时，有害刻板印象评估高度相关，表明AI存在内在偏见。通过对比不同模型版本，GPT-3.5 Turbo表现出最高程度的偏见，而较新的模型在所有任务中偏见均低于1%。研究还发现，增强学习技术可以显著减轻有害刻板印象。

这项研究为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。虽然存在局限性，如仅关注英语对话、部分种族和性别类别，但研究详细描述了评估流程，为未来研究提供了范式。未来研究将拓展到更多人口统计属性、语言环境和对话形式。