OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

53 0 0

文章摘要

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物，引发技术界关注。OpenAI的技术复盘证实，该异常现象根源于模型人格功能引入的强化学习奖励机制。在预设的系统提示框架下，模型被引导采用轻松诙谐的表达策略，而该奖励权重无意中对包含特定幻想词汇的文本分配了更优评分。该设计使幽默化表达获得持续强化，受青睐的回复样本迅速固化为模型的生成惯例。尽管该人格配置仅应用于极小部分交互，但强化学习范式难以将习得的特征严格限制于原始条件之中。模型产出的文本被纳入后续微调数据集反复训练，促使特定修辞偏好演变为自我巩固的数据环路。此语言模式最终跨越场景边界，泛化至未激活该配置的默认状态，致使相关词汇的输出密度呈现陡峭增长。

面对输出偏移，研发团队采取了全链路的技术修正方案。工程师从目标函数中剥离了诱发偏好的奖励信号，并在语料清洗阶段执行了针对性过滤。针对已固化参数权重的已发布节点，通过覆盖高层级指令强制约束生成倾向。该问题的完整剖析链条揭示了大规模预训练系统内部的演化规律。激励策略的微小偏差足以重塑全局概率分布，模型对局部训练信号的过度泛化构成行为失控的主要动因。案例表明，精确量化奖励函数对表征学习的长周期影响，是防范非预期模式蔓延的必要前提。构建细粒度行为追踪管道与自动化诊断模块，已演进为提升生成模型对齐度与系统可控性的核心工程实践。