
文章摘要
【关 键 词】 AI写作、写作多样、同质化、评估指标、模型提升
最新研究发现,AI写作并非趋同,在开写前由人类提供开头或随机插入词汇,写作效果会更具多样性,AI写作同质化或因“启动条件”问题。
为评估语言模型语料库级多样性,研究提出新评估指标和数据集。数据抓取方面,主要分析短篇小说散文,从Reddit网站的r/shortstories和r/WritingPrompts板块获取文本。创建语料库时,对人类写作文本进行数据清洗,筛选长度500 – 2000字的故事,保证写作质量;模型续写采用固定温度0.8、top – p为1及基础系统提示。同质化指标分为三类:文体风格同质化用Unique – N指标和文体特征方差评估风格多样性;语义同质化通过计算文本嵌入向量平均相似度分析;情感同质化利用VADER工具分析情感表达分布差异。
在写作多样性方面,不同指标呈现不同结果。文体风格上,在Writing Prompts数据集中人类多样性得分高,但在Short Stories数据集中人类文本虽有较高Unique – N得分,却表现出最低的文体特征方差,可能与写作群体有关,且两个数据集模型获得的上下文信息不同。语义方面,人类作品语义多样性更高,模型生成文本更趋同,但因嵌入模型输入长度限制可能影响相似度测量,使用更高维度嵌入模型后绝对相似度数值升高,具体关系待研究。情感上,人类创作故事情感表现丰富多样,约30%带负面情感,而LLM生成故事情感更偏向正面。
为提升模型输出多样性,研究者尝试不同方法。提供不同长度人类创作内容对文体和语义多样性影响不大;在系统提示中加入随机单词,虽模型生成文本多样性仍低于人类,但各项指标得分均有提升。未来,研究团队将进一步探究提示中上下文的数量和类型,以使模型输出达到与人类短篇故事同等的多样性。
原文和模型
【原文链接】 阅读原文 [ 2036字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆