10人明星团队炼出首个微调Llama 3.1 405B！角色扮演一秒入戏，代码全开源

AIGC动态2年前 (2024)发布 AIera

3,766 0 0

10人明星团队炼出首个微调Llama 3.1 405B！角色扮演一秒入戏，代码全开源

文章摘要

【关键词】 开源模型、技术微调、智能对话、专业应用、Nous Research

开源模型Llama 3.1的405B版本经过Nous Research的微调后，发布了名为Hermes 3的微调版本。Nous Research是一个小型但技术实力强大的初创公司，专注于开放模型。Hermes系列已经微调了多个开源模型，下载量超过3300万次。Hermes 3的发布包括完整的技术报告和博客，并已在Lambda Chat中集成。

技术报告显示，Hermes 3在使用了FP8量化后仍保持较高性能，优化降低了模型的VRAM和磁盘需求约50%，便于开发者部署。SFT和DPO的微调过程专门设计，增强了模型的对话能力和指令遵循能力，擅长复杂角色扮演和创意写作。Hermes 3还扩展了函数调用、分步推理等智能体相关功能，适合需要高级推理和决策能力的专业人士。

Hermes 3的对话能力表现在长期上下文记忆、多轮对话、角色扮演、内部独白等方面。智能体能力包括结构化输出、输出中间步骤、生成内部独白、创建流程图等，提高了解决多步骤问题的可解释性。在多个公共基准测试上，Hermes 3成为开放权重模型的SOTA。不同参数和精度的模型版本已发布在HuggingFace上。

Hermes 3的训练包括监督微调（SFT）和直接偏好优化（DPO）两个阶段。SFT数据集主要由指令数据组成，约3.9亿个token。团队花费5个月筛选并构建数据集，包括现成数据来源和特定领域的合成数据。DPO训练一个LoRA适配器，避免了在GPU内存中同时保存参考模型和训练模型的问题。

最终评估结果显示，Hermes 3在多个公共基准测试上与Llama 3.1表现相当，互有长短。Hermes 3在特定基准测试中领先或落后于Llama，说明后训练过程让模型能力在特定方面有了针对性提升。

Nous Research是一家成立于2023年的私人应用研究小组运营商，总部位于纽约。公司共有10名成员，上一次种子轮融资筹集了520万美元。公司官网宣言挑战封闭技术，提供强大的开源代码。根据HuggingFace主页，Nous Research已发布5个数据集和89个模型，包括Hermes 2、Hermes 3、YaRN、Dolma等系列。