学界正在研究1-bit的大模型，目前已经有突破性进展

AIGC动态1年前 (2024)发布 damoxingLab

2,494 0 0

文章摘要

随着大型语言模型（LLM）性能的增强，其对计算资源和能源的需求也日益增加。为降低成本、提高速度并实现环保，研究者致力于将模型压缩至能在手机等小型设备上运行的大小。关键性的进展是通过将存储模型记忆的高精度数字简化为1或-1。

在量化技术方面，研究人员已从传统的16位参数精度降低至8位或4位，现在正探索1位参数的极端量化。目前，主要有两种方法实现1位LLM：训练后量化（PTQ）和量化感知训练（QAT）。PTQ方法由于避免了从头开始训练模型的必要性，而更受欢迎。例如，BiLLM方法就是采用1位或2位来近似参数，以减少内存需求，同时保持相对较好的性能。

微软亚洲研究院的韦福如提出了1位QAT方法BitNet，该方法通过参数调整速率的优化，实现了比PTQ更佳的性能。尽管1位LLM在精确度上仍无法与全精度网络相比，但其在能效上展现了显著优势，例如BitNet 1.58b的模型在保持性能的同时，大幅减少了GPU内存使用和能量消耗。

哈尔滨工业大学的团队进一步提出结合PTQ和QAT优点的OneBit方法，其模型在减少内存占用的同时，保持了竞争力的性能。然而，当前的硬件尚未完全利用这些模型的优势。1位LLM预示着对新型定制硬件和系统的需求，这类硬件能够直接处理-1、0、1的参数，通过加减运算替代传统的乘法运算。

尽管1位LLM和定制处理器的协同发展尚处于初期阶段，但已经显示出在模型性能、资源消耗及运算速度方面的巨大潜力。专家指出，开发新硬件以充分配合1位模型的能力是一个长期的过程，但这一研究方向无疑为未来的AI技术发展开辟了新的可能性。