别争了！香农老婆，才是世界上第一个大语言模型

45 0 0

文章摘要

香农与其妻子在1950年前后进行的猜字母实验，被视为人类历史上最早的真人版下一个词元预测。在该实验中，可预测的字母被省略，不可预测的字母被保留，直观地展示了语言的可预测性允许信息被压缩。为了更精确地测量语言的信息量，香农在后续研究中引入更多受试者，通过记录猜测正确字母所需的次数来推算隐含概率，实质上是将人脑作为语言模型来评估语言的熵。

预测与压缩在信息论中是一体两面的关系。预测旨在找出无需记录的部分，而压缩则是将这些冗余部分删除。理想的压缩算法会将文本压缩至类似随机噪声的状态，此时所有可预测的规律均被消除，剩下的便是必须传输的纯粹信息。根据香农的信息量公式，事件发生的概率越低，其携带的信息量越大。在高效的变长编码中，高概率消息分配短编码，低概率消息分配长编码，从而有效降低系统的平均编码长度，即降低熵。

大语言模型在海量词元中预测下一个词元的过程，本质上是对语言熵的衡量。模型训练中的交叉熵损失直接反映了压缩效率，模型对真实词元的预测概率越高，交叉熵损失越低，其作为压缩器的性能就越优越。当模型能够精准预测下一个词元时，表明它已成功捕捉到语言中语法、常识及推理等可重复结构。

虽然压缩不能简单等同于智能，但智能的核心能力之一在于抓住复杂世界中可预测的结构。如果一个系统能够将世界规律压缩为更短的表示，并在全新的上下文中持续进行准确预测，便触及了智能的本质。从香农妻子的猜字母游戏到如今大语言模型降低损失函数的过程，其核心逻辑始终在于衡量下一个符号所带来的信息惊讶度。