对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

AIGC动态2年前 (2024)发布 Si-Planet

3,562 0 0

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

文章摘要

北京智源大会作为一年一度的AI行业盛会，汇聚了众多AI领域的顶尖学者和产业专家。本次大会的亮点之一是开源数据的讨论和贡献，智源研究院在推动全球大模型开源生态方面发挥了重要作用。

开源数据对于大模型的发展至关重要。OpenAI在2020年提出的Scaling Law揭示了模型规模、训练数据和模型效果的关系，表明大量计算资源和数据投入可以显著提升模型性能。目前，几乎所有大模型公司都在沿着Scaling Law的路线演进。然而，随着模型参数的不断增长，对数据量的需求也在增加，未来可能面临“数据荒”的问题。

为应对这一挑战，智源研究院在数据领域采取了多项措施。首先，智源推出了全球最大语料库WuDaoCorpora，开放了200GB的高质量低风险中文语料，支持全球大模型研究。此外，智源还开源了可商用的指令数据集COIG、中英文文本对语义向量模型训练数据集MTP，以及高质量中文互联网语料库CCI 1.0等多个项目。

在行业应用中，大模型面临的最大挑战之一是缺乏海量、高质量的行业特定数据集。IndustryCorpus 1.0作为目前全球最大的多行业中英双语数据集，包含3.4TB的开源行业预训练数据，覆盖了18个行业类别。通过使用医疗行业数据集进行示范模型训练，智源展示了该数据集在提升模型行业能力方面的有效性。

智源研究院副院长林咏华在接受采访时表示，开源数据对于大模型数据生态至关重要。他指出，如果没有Common Crawl等开源数据集，大模型的发展可能会延后。此外，林咏华还提到了中文数据面临的挑战，包括数据孤岛问题和版权问题。他认为，需要通过技术手段和合作来解决这些问题，推动中文数据的汇聚和流动。

在数据交易方面，林咏华认为，随着大模型的兴起，数据交易所上的挂牌交易可能会逐渐增多。但他同时指出，大模型预训练数据的质量参差不齐，采购方很难过滤每一条数据的质量，这也是目前数据交易面临的挑战之一。

展望未来，智源研究院将继续在数据领域进行布局，包括开源更多高质量的文本和多模态数据，以及挖掘垂类数据，以支持大模型在行业的落地和应用。通过不断扩大和优化开源数据集，智源研究院致力于推动人工智能技术的创新和发展。