英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo

AIGC动态1年前 (2024)发布 AIGCOPEN

2,698 0 0

文章摘要

【关键词】 人工智能、Nemotron-4 340B、数据生成、模型训练、开源技术

全球人工智能领导者英伟达（Nvidia）于6月15日在其官网开源了一款名为Nemotron-4 340B的大模型，专为生成合成数据而设计。该模型能够快速生成医疗、金融、制造、营销等多个领域的数据，以支持特定大模型的预训练和微调。Nemotron-4 340B包含基础模型、奖励模型和指导模型三个版本，支持RLHF（人类反馈强化学习）、LoRA（低序适配）、SFT（监督式微调）等主流高效微调方法。

Nemotron-4 340B生成的合成训练数据质量极高，对开发高性能大模型具有显著帮助。模型的开源地址为：https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911。此外，Nemotron-4 340B的三个版本可以与英伟达开源的多模态大模型开发框架NeMo和高效推理框架TensorRT-LLM结合使用，为开发者提供了从训练数据到开发、推理框架的一站式服务。

NeMo是一个面向科研人员和PyTorch开发者的可扩展、原生云的生成式AI框架，专用于大语言模型、多模态模型、自动语音识别、文本转语音和计算机视觉等。用户可以通过利用现有代码和预训练模型检查点，高效地创建、定制和部署新的生成式AI模型。NeMo的开源地址为：https://github.com/NVIDIA/NeMo。

TensorRT-LLM是一个易于使用的Python API，专门用于开发定制大语言模型并构建TensorRT引擎，这些引擎包含了针对英伟达GPU上高效推理的最新优化技术。TensorRT-LLM包含了创建Python和C++运行时的组件，用于执行这些TensorRT引擎。还包括与NVIDIA Triton推理服务器集成的后端，这是一个用于提供大模型的生产级系统。TensorRT-LLM的开源地址为：https://github.com/NVIDIA/TensorRT-LLM。

在架构方面，Nemotron-4-340B采用了仅解码器Transformer架构，使用因果注意力掩码，采用旋转位置嵌入，SentencePiece分词器，以及在MLP层中使用平方ReLU激活函数。模型没有偏置项，dropout率为零，输入输出嵌入未绑定，还使用了分组查询注意力。

训练数据方面，Nemotron-4-340B在9万亿tokens数据上进行了预训练，主要使用了英语自然语言数据、多语种自然语言数据和源代码数据三大类。英语自然语言数据包括来自各领域的网络文档、新闻文章、科学论文、书籍等；多语种数据包含了53种自然语言，由单语和平行语料库的文档组成；源代码数据集由43种编程语言组成，如Python、PHP、C#、C++、JAVA等。

训练细节方面，Nemotron-4 340B使用了768个DGX H100节点进行训练，每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。每个H100 GPU在进行16位浮点（bfloat16）运算时，峰值吞吐量为989 teraFLOP/s。

在模型对齐方面，Nemotron-4 340B采用了一种全新的算法——奖励感知偏好优化，通过使用由策略网络定义的隐式奖励来近似奖励差距，与直接偏好优化相比，可以防止过拟合难题。开发人员将很快可以在NVIDIA NIM上部署、使用Nemotron-4-340B模型，支持云服务托管，非常方便。NIM地址为：https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain。