Hugging Face 发布 FinePDFs：基于 PDF 文档构建的 3 万亿 Token 数据集

694 0 0

文章摘要

Hugging Face 正式发布全球最大的纯 PDF 公开语料库 FinePDFs，为开放训练数据集带来新突破。该数据集涵盖 1733 种语言的 4.75 亿份文档，约 3 万亿个 Token，规模达 3.65TB，让此前因复杂昂贵而难以处理的资源得以利用。

与多数依赖 HTML 源的大规模语言模型数据集不同，PDF 记录了高质量、特定领域内容，尤其在法律、学术和技术写作领域。但从 PDF 提取可用文本困难重重，如部分需 OCR，格式问题也会使解析复杂。为应对这些挑战，FinePDFs 混合使用文本提取、GPU 驱动的 OCR 以及去重、语言识别和 PII 匿名化等技术，既能大规模处理文档，又能保证提取质量。

FinePDFs 语言覆盖广泛，英语占比最高，有超 1.1 万亿个 Token，西班牙语、德语等多种语言也贡献了大量 Token，还能代表一些小语种。为评估该数据集，Hugging Face 在其子集上训练 1.67B 参数模型，结果显示 FinePDFs 表现与先进的 HTML 数据集 SmolLM – 3 Web 相当，且两者结合能显著提升性能，强化了 PDF 可带来互补知识的观点。

不过，评估结果引发社区质疑，数据科学家询问评估方式和得分，Hugging Face 机器学习工程师回应称关注基于概率的报告。研究人员指出，该数据集有推进长上下文训练的潜力，因其文档通常比网页长。部分 AI 社区成员将其视为数据透明度的里程碑，因为 Hugging Face 不仅发布数据集，还记录了处理流程。

FinePDFs 遵循开放数据共享署名许可，可免费用于研究和开发，托管在 Hugging Face Hub 上，可通过多种方式访问。此外，10 月 23 – 25 日 QCon 上海站即将召开，有限时 9 折优惠。