文章摘要
香农与其妻子在1950年前后进行的猜字母实验,被视为人类历史上最早的真人版下一个词元预测。在该实验中,可预测的字母被省略,不可预测的字母被保留,直观地展示了语言的可预测性允许信息被压缩。为了更精确地测量语言的信息量,香农在后续研究中引入更多受试者,通过记录猜测正确字母所需的次数来推算隐含概率,实质上是将人脑作为语言模型来评估语言的熵。
预测与压缩在信息论中是一体两面的关系。预测旨在找出无需记录的部分,而压缩则是将这些冗余部分删除。理想的压缩算法会将文本压缩至类似随机噪声的状态,此时所有可预测的规律均被消除,剩下的便是必须传输的纯粹信息。根据香农的信息量公式,事件发生的概率越低,其携带的信息量越大。在高效的变长编码中,高概率消息分配短编码,低概率消息分配长编码,从而有效降低系统的平均编码长度,即降低熵。
大语言模型在海量词元中预测下一个词元的过程,本质上是对语言熵的衡量。模型训练中的交叉熵损失直接反映了压缩效率,模型对真实词元的预测概率越高,交叉熵损失越低,其作为压缩器的性能就越优越。当模型能够精准预测下一个词元时,表明它已成功捕捉到语言中语法、常识及推理等可重复结构。
虽然压缩不能简单等同于智能,但智能的核心能力之一在于抓住复杂世界中可预测的结构。如果一个系统能够将世界规律压缩为更短的表示,并在全新的上下文中持续进行准确预测,便触及了智能的本质。从香农妻子的猜字母游戏到如今大语言模型降低损失函数的过程,其核心逻辑始终在于衡量下一个符号所带来的信息惊讶度。
原文和模型
【原文链接】 阅读原文 [ 3363字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max-2026-05-20
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



