对话复旦大学教授肖仰华:千亿大模型可能有极大“水分”下,如何用更优质的数据发展中国AI技术?|钛媒体AGI

对话复旦大学教授肖仰华:千亿大模型可能有极大“水分”下,如何用更优质的数据发展中国AI技术?|钛媒体AGI

 

文章摘要


【关 键 词】 数据质量AI模型合成数据数据工程技术方案

在AI大模型技术的发展中,数据的质量和数量成为了关键因素。随着模型规模的不断扩大,对数据的需求也在不断增长。然而,据Epoch AI的数据显示,预计到2028年,AI大语言模型将耗尽可用的人类数据,这表明未来模型的效果可能达到瓶颈,难以实现更智能的通用人工智能(AGI)。

复旦大学计算机科学技术学院的肖仰华教授在2024年外滩大会上提出,AI大模型的发展本质上是数据工程的问题。他指出,当前大模型对数据的使用效率低下,且存在大量无意义或错误率高的数据。为了提升大模型的技术能力,他建议发展合成数据、私域数据和个人数据训练。

合成数据是通过在原始数据基础上进行思考、反思、关联和融合来生成的新数据,这对于提升大模型的理性能力至关重要。私域数据,即垂直行业中的高质量数据,如果被有效利用,可以使大模型成为行业专家。个人数据则是指利用手机等终端收集的数据,这些数据的结合有望实现个性化的大模型服务。

尽管大模型展现出了重要的能力,但它们仍面临着“幻觉”现象,即生成不正确、无意义或不真实的文本。这一现象的主要原因是缺乏高质量数据的支持。因此,提高数据的质量和多样性对于大模型技术的发展至关重要。

肖仰华教授还提出了对数据消耗的三个技术方案:合成数据、私域数据和个人数据。他强调,数据的评估、筛选和训练应该是一个整体,需要注重数据的使用方法。他还指出,尽管大模型的参数量在增加,但其智商和理性能力并没有相应的增长。

对于合成数据的前景,存在一些怀疑和争议。OpenAI的创始成员安德烈·卡帕蒂认为,尽管合成数据对创造下一代大模型有帮助,但其多样性和丰富度可能不足。他提出,当前的大模型存在许多无用信息,而未来的模型应该能够更有效地利用数据。

肖仰华教授反对“机器取代人类”的观点,他认为技术的发展应该以人为本,没有人的文明是没有意义的。他强调,大模型的到来应该促使人类回归价值本原,专注于真正有价值的事务。

展望未来,肖仰华教授认为,下一代万亿级参数的GPT模型可能不需要过多的数据,而是需要精炼的数据。他预测,生成式AI大模型的泡沫终将破裂,因为优质数据的生产速度有限,合成数据的质量控制存在挑战,且人类的认知水平可能限制我们对超级智能的理解。他强调,AI的发展应该促使所有行业回归价值本原,推动人类专注于真正有价值的事务。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3192字 | 13分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...