标签:语料库

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

Hugging Face 正式发布全球最大的纯 PDF 公开语料库 FinePDFs,为开放训练数据集带来新突破。该数据集涵盖 1733 种语言的 4.75 亿份文档,约 3 万亿个 Token...

微软、上海交通等发布首届数据污染报告,开闭源模型皆被污染

随着大语言模型(LLM)如GPT-4和o1的出现,生成式AI产品数量激增,但数据污染问题对模型的准确性和可靠性构成挑战。数据污染指评估数据无意中包含在预训练数...

知乎AI革命:智能搜索与实时问答的融合

在生成式人工智能(Generative AI)的背景下,知乎的角色和未来发展可以从三个视角进行观察。首先,知乎是大语言模型预训练中文语料的重要来源,例如聊天应用...