ChatGPT爱用破折号是病,奥特曼刚宣布已经治好了

AIGC动态6小时前发布 QbitAI
65 0 0
ChatGPT爱用破折号是病,奥特曼刚宣布已经治好了

 

文章摘要


【关 键 词】 AI写作破折号问题RLHF训练数据偏好语言习惯

OpenAI首席执行官奥特曼宣布ChatGPT更新了一项重要功能——输出内容将减少对破折号的滥用。这一看似微小的调整引发了广泛关注,因为破折号此前已成为识别AI生成文本的显著标志。即便用户明确要求避免使用,旧版模型仍会顽固保留这个习惯,导致其输出带有明显的”AI味”。

用户社区长期受此问题困扰,OpenAI官方论坛充斥着相关投诉。戏剧性的是,即便在宣布修复后,仍有实例显示ChatGPT会在承诺不使用破折号的回复中继续使用该符号。除破折号外,AI写作还存在其他特征性模式,如过度依赖列表式表达、特定句式重复等,这些都被视为数字时代的”语言指纹”。

关于AI偏爱破折号的根源,GitHub工程师Sean Goedecke通过系统研究排除了多个假设。最初认为这与标点的常见性或功能性有关,但数据显示破折号在自然语言中的使用频率并不突出。随后将目光转向强化学习人类反馈(RLHF)环节,发现非洲英语区的语言习惯虽影响某些词汇选择,但无法解释破折号偏好

关键转折出现在版本对比中:GPT-4的破折号使用频率比GPT-3.5激增十倍,这指向模型架构升级过程中的数据变化。研究揭示,当AI面临训练数据短缺时,开发团队引入了大量19世纪纸质书籍的数字化内容。历史语言学研究表明,该时期恰逢破折号使用的鼎盛阶段,如《白鲸记》等经典著作中包含大量此类标点。这种时间线上的高度吻合,强烈暗示了历史文献数据是塑造AI标点偏好的关键因素

尽管存在争议观点认为对”AI风格”的批评存在过度反应,但技术团队仍将此类特征视为需要优化的对象。该案例不仅揭示了机器学习模型与训练数据间的深刻联系,也展现了语言习惯如何在数字时代被重新定义。随着模型持续迭代,这类”数字考古”般的研究将继续帮助理解AI行为背后的复杂机制。

原文和模型


【原文链接】 阅读原文 [ 1175字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...