谷歌、Anthropic推出创新神经压缩Equal-Info Windows

AIGC动态2年前 (2024)发布 AIGCOPEN

3,932 0 0

文章摘要

谷歌DeepMind和Anthropic的研究人员共同开发了一种名为Equal-Info Windows的创新神经压缩方法，旨在解决大语言模型（LLM）训练成本高昂的问题。随着LLM如ChatGPT和Gemini等参数和功能的复杂化，训练成本呈指数级增长。通过使用神经压缩的文本数据来训练模型，可以在训练和推理效率上实现显著提升，同时便于处理超长文本。

然而，直接使用神经压缩数据可能导致生成不透明和不稳定的内容输出。例如，简单的算术编码文本压缩无法使LLM学习到有效的训练知识。Equal-Info Windows通过将文本分割成多个窗口，并将每个窗口压缩到固定长度的比特流，实现了信息量的大致相等。这种方法提供了稳定的映射关系，使压缩后的文本数据更易于被LLM学习。

Equal-Info Windows首先通过“窗口分割”将原始文本数据分割成连续字符序列，每个序列作为一个独立窗口。窗口大小可根据需求调整，通常为固定长度，便于后续压缩。这种分割有助于减少LLM在处理长文本时的计算负担，使模型专注于局部上下文，提高处理速度和效率。

接下来，通过“窗口压缩”将每个分割后的窗口独立压缩到固定长度的比特串，保持原始文本信息的同时减少存储空间和AI算力资源需求。文本窗口首先转换为数值序列，然后通过算术编码进行压缩，优化压缩过程以实现高效比特级压缩。

研究人员训练了两个模型M1和M2。M1负责将原始文本数据转换为压缩后的比特流，是实现神经网络压缩的关键环节。M2模型学习从压缩的比特流中恢复和理解原始文本信息，包括处理和解码M1生成的压缩数据。在推理阶段，M2模型能基于压缩输入生成未压缩的文本输出，实现压缩文本的理解和逆向压缩过程。

为了评估Equal-Info Windows的性能，研究人员将其压缩的文本与传统子词分割器（如SentencePiece）处理的文本进行了对比。尽管在模型参数数量相同的情况下，Equal-Info Windows的困惑度略高于子词分割器，但在减少序列长度方面具有明显优势。这表明Equal-Info Windows能在较少的自回归步骤中生成文本，降低模型推理时的延迟。

此外，研究团队发现Equal-Info Windows在处理长文本时表现出色。由于每个压缩窗口包含大致相等的信息量，LLM能更好地捕捉文本中的长距离依赖关系，这对于文档检索和编码等任务尤为重要。这项研究为大语言模型的训练和应用提供了一种新的高效方法，有助于推动AIGC领域的发展。