英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1

AIGC动态2个月前发布 AIera
410 0 0
英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1

 

文章摘要


【关 键 词】 AI模型英伟达基准测试混合训练推理能力

英伟达最近开源了一款名为Nemotron-70B的AI模型,该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型,仅次于OpenAI的o1模型。Nemotron-70B基于Llama-3.1-70B开发,并通过人类反馈强化学习完成训练,特别是采用了一种新的混合训练方法,结合了Bradley-Terry和Regression技术。英伟达还开源了训练数据集,该数据集基于Llama-3.1-Nemotron-70B-Reward提供奖励信号,并利用HelpSteer2-Preference提示来引导模型生成符合人类偏好的答案。

在LMSYS大模型竞技场的Arena Hard评测中,Nemotron-70B得分85,AlpacaEval 2 LC上得分57.6,GPT-4-Turbo MT-Bench上为8.98。模型在没有专门提示和额外推理token的情况下,能够正确回答复杂问题,显示出其强大的推理能力。例如,它能够正确回答关于香蕉数量的问题,并且在零样本的情况下完成了复杂的模型转换任务。

英伟达开源超强模型的动机是为了推动所有盈利公司订购更多芯片来训练越来越复杂的模型,从而保持其在定制芯片和神经形态芯片领域的领先地位。这一策略使得英伟达能够以低成本实现超强模型的开发,而这对于小企业和初创公司来说是一个巨大的挑战。

在训练过程中,奖励模型的作用至关重要,因为它可以调整模型遵循指令的能力。英伟达的研究者们发现,结合Bradley-Terry和回归奖励模型的方法在训练中表现出色,训练出的奖励模型在RewardBench上得分为94.1分,是截止2024年10月1日表现最好的模型。此外,英伟达还开源了一个高质量的偏好建模数据集,这是包含人类编写偏好理由的通用领域偏好数据集的第一个开源版本。通过这些数据,研究者们比较了Bradley-Terry风格和Regression风格的奖励模型,并得出了结合这两种方法的新颖方法。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2430字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...