「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

 

文章摘要


【关 键 词】 大模型低频退化脸谱心智频率定律分词器

大语言模型在生成低频词汇时存在明显的退化现象,这一问题近期因特定人名生成错误而引发公众广泛关注。低频词元退化并非全新的技术发现,而是大模型在预训练和微调阶段面临的深层结构性问题。由于高质量对话数据中低频词汇出现频率极低,导致模型相关参数在监督微调中发生严重偏移,使得模型即便掌握了相关信息,也无法准确输出特定低频词汇。

针对这一现象,脸谱心智公司在顶级学术会议上率先进行了系统性揭示,并提出了基于词典提示词的轻量化解决方案,通过在推理阶段注入频率辅助信息来提升模型对低频词的处理能力。随后,该公司将研究维度从单词级别拓展至句子级别,提出了文本频率定律及配套的蒸馏与课程学习训练框架。实验表明,将输入改写为高频表述或应用频率估计校正,能够显著提升模型在数学推理、常识推理及多语言翻译等复杂任务中的表现。全球头部人工智能企业也在其最新产品中通过调整分词器来应对低频词元退化,从产业侧直接印证了该学术判断的准确性与前瞻性。

尽管产业界已开始关注并着手解决低频问题,但目前的工程改造大多仍停留在单词级别。脸谱心智提出的句子级频率定律及系统性训练框架,为从根源上缓解模型频率退化提供了更为深入的方法论,且尚未被产业界全面跟进。研究进一步指出,频率定律不仅适用于大语言模型的文本生成,在传统视觉模型及世界模型等更广泛的深度学习领域同样具备巨大的理论适配空间。随着核心团队在商业化渠道与顶尖科研力量上的持续补充,掌握此类关键基础理论的技术积累,有望在未来的世界模型研发及产业落地中转化为显著的商业优势。

原文和模型


【原文链接】 阅读原文 [ 3690字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...