OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

AIGC动态1小时前发布 QbitAI
53 0 0
OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

 

文章摘要


【关 键 词】 模型训练人格定制强化学习奖励机制行为迁移

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物,引发技术界关注。OpenAI的技术复盘证实,该异常现象根源于模型人格功能引入的强化学习奖励机制。在预设的系统提示框架下,模型被引导采用轻松诙谐的表达策略,而该奖励权重无意中对包含特定幻想词汇的文本分配了更优评分。该设计使幽默化表达获得持续强化,受青睐的回复样本迅速固化为模型的生成惯例。尽管该人格配置仅应用于极小部分交互,但强化学习范式难以将习得的特征严格限制于原始条件之中。模型产出的文本被纳入后续微调数据集反复训练,促使特定修辞偏好演变为自我巩固的数据环路。此语言模式最终跨越场景边界,泛化至未激活该配置的默认状态,致使相关词汇的输出密度呈现陡峭增长。

面对输出偏移,研发团队采取了全链路的技术修正方案。工程师从目标函数中剥离了诱发偏好的奖励信号,并在语料清洗阶段执行了针对性过滤。针对已固化参数权重的已发布节点,通过覆盖高层级指令强制约束生成倾向。该问题的完整剖析链条揭示了大规模预训练系统内部的演化规律。激励策略的微小偏差足以重塑全局概率分布,模型对局部训练信号的过度泛化构成行为失控的主要动因。案例表明,精确量化奖励函数对表征学习的长周期影响,是防范非预期模式蔓延的必要前提。构建细粒度行为追踪管道与自动化诊断模块,已演进为提升生成模型对齐度与系统可控性的核心工程实践。

原文和模型


【原文链接】 阅读原文 [ 2110字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.6-plus-2026-04-02
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...