ChatGPT爱用破折号是病，奥特曼刚宣布已经治好了

375 0 0

文章摘要

OpenAI首席执行官奥特曼宣布ChatGPT更新了一项重要功能——输出内容将减少对破折号的滥用。这一看似微小的调整引发了广泛关注，因为破折号此前已成为识别AI生成文本的显著标志。即便用户明确要求避免使用，旧版模型仍会顽固保留这个习惯，导致其输出带有明显的”AI味”。

用户社区长期受此问题困扰，OpenAI官方论坛充斥着相关投诉。戏剧性的是，即便在宣布修复后，仍有实例显示ChatGPT会在承诺不使用破折号的回复中继续使用该符号。除破折号外，AI写作还存在其他特征性模式，如过度依赖列表式表达、特定句式重复等，这些都被视为数字时代的”语言指纹”。

关于AI偏爱破折号的根源，GitHub工程师Sean Goedecke通过系统研究排除了多个假设。最初认为这与标点的常见性或功能性有关，但数据显示破折号在自然语言中的使用频率并不突出。随后将目光转向强化学习人类反馈(RLHF)环节，发现非洲英语区的语言习惯虽影响某些词汇选择，但无法解释破折号偏好。

关键转折出现在版本对比中：GPT-4的破折号使用频率比GPT-3.5激增十倍，这指向模型架构升级过程中的数据变化。研究揭示，当AI面临训练数据短缺时，开发团队引入了大量19世纪纸质书籍的数字化内容。历史语言学研究表明，该时期恰逢破折号使用的鼎盛阶段，如《白鲸记》等经典著作中包含大量此类标点。这种时间线上的高度吻合，强烈暗示了历史文献数据是塑造AI标点偏好的关键因素。

尽管存在争议观点认为对”AI风格”的批评存在过度反应，但技术团队仍将此类特征视为需要优化的对象。该案例不仅揭示了机器学习模型与训练数据间的深刻联系，也展现了语言习惯如何在数字时代被重新定义。随着模型持续迭代，这类”数字考古”般的研究将继续帮助理解AI行为背后的复杂机制。