对话蚂蚁技术研究院院长陈文光：AI的发展极大受到数据驱动，国产推理软件系统仍需追赶英伟达｜钛媒体AGI

1,620 0 0

文章摘要

在2024年外滩大会的“从DATA for AI到AI for DATA”见解论坛上，清华大学计算机科学与技术系教授、蚂蚁集团副总裁兼蚂蚁技术研究院院长陈文光发表了关于科学发现和AI发展的演讲。他提出科学发现经历了四个范式：实验科学、理论科学、数值模拟的高性能计算（HPC）以及AI和大数据（BigData）形成的第四范式。陈文光预测，未来科学计算、AI和大数据的融合将成为推动计算系统发展和变革的趋势。

他指出，AI技术的发展受到数据的驱动，更多的数据意味着更好的模型质量。提升AI水平不一定要训练越来越强大的模型，而是可以通过RAG知识增强模型技术、行业私域数据训练等方案，以及在数据量和数据质量之间寻求平衡来实现。陈文光还提到，通过提升数据质量、学习方法，并在模型外增加能力，可以在不增加数据量的情况下提升智能水平。

在AI推理算力成本下降方面，陈文光提到了多种推理优化方法，如模型量化、压缩和动态批处理等。他强调国产推理算力在软件方面需要追赶英伟达生态的技术进展，并指出推理包括计算密集的prefill阶段和访存密集的Decode阶段，合理分配算力需要硬件和软件层面的工作。

关于数据共享机制，陈文光指出存在诸多挑战，如密码学和可信执行环境的组合方案依赖硬件，多方安全计算、联邦学习、全同态加密等方法在性能和效果之间需要权衡。他认为，金融和教育是行业大模型落地的最佳场景，金融领域有客户需求基础和市场前景，而教育领域则因师资稀缺和高水平教育需求，大模型提供了重要机会。

陈文光的演讲和对话涵盖了AI技术的发展、数据的重要性、推理算力的优化以及数据共享的挑战，为与会者提供了对AI领域未来发展的深刻见解。