标签：语料库

Hugging Face 发布 FinePDFs：基于 PDF 文档构建的 3 万亿 Token 数据集

Hugging Face 正式发布全球最大的纯 PDF 公开语料库 FinePDFs，为开放训练数据集带来新突破。该数据集涵盖 1733 种语言的 4.75 亿份文档，约 3 万亿个 Token...

AIGC动态

6个月前

微软、上海交通等发布首届数据污染报告，开闭源模型皆被污染

随着大语言模型（LLM）如GPT-4和o1的出现，生成式AI产品数量激增，但数据污染问题对模型的准确性和可靠性构成挑战。数据污染指评估数据无意中包含在预训练数...

AIGC动态

1年前 (2024)

知乎AI革命：智能搜索与实时问答的融合

在生成式人工智能（Generative AI）的背景下，知乎的角色和未来发展可以从三个视角进行观察。首先，知乎是大语言模型预训练中文语料的重要来源，例如聊天应用...

AIGC动态

2年前 (2024)