10人明星团队炼出首个微调Llama 3.1 405B!角色扮演一秒入戏,代码全开源

AIGC动态2个月前发布 AIera
357 0 0
10人明星团队炼出首个微调Llama 3.1 405B!角色扮演一秒入戏,代码全开源

 

文章摘要


【关 键 词】 开源模型技术微调智能对话专业应用Nous Research

开源模型Llama 3.1的405B版本经过Nous Research的微调后,发布了名为Hermes 3的微调版本。Nous Research是一个小型但技术实力强大的初创公司,专注于开放模型。Hermes系列已经微调了多个开源模型,下载量超过3300万次。Hermes 3的发布包括完整的技术报告和博客,并已在Lambda Chat中集成。

技术报告显示,Hermes 3在使用了FP8量化后仍保持较高性能,优化降低了模型的VRAM和磁盘需求约50%,便于开发者部署。SFT和DPO的微调过程专门设计,增强了模型的对话能力和指令遵循能力,擅长复杂角色扮演和创意写作。Hermes 3还扩展了函数调用、分步推理等智能体相关功能,适合需要高级推理和决策能力的专业人士。

Hermes 3的对话能力表现在长期上下文记忆、多轮对话、角色扮演、内部独白等方面。智能体能力包括结构化输出、输出中间步骤、生成内部独白、创建流程图等,提高了解决多步骤问题的可解释性。在多个公共基准测试上,Hermes 3成为开放权重模型的SOTA。不同参数和精度的模型版本已发布在HuggingFace上。

Hermes 3的训练包括监督微调(SFT)和直接偏好优化(DPO)两个阶段。SFT数据集主要由指令数据组成,约3.9亿个token。团队花费5个月筛选并构建数据集,包括现成数据来源和特定领域的合成数据。DPO训练一个LoRA适配器,避免了在GPU内存中同时保存参考模型和训练模型的问题。

最终评估结果显示,Hermes 3在多个公共基准测试上与Llama 3.1表现相当,互有长短。Hermes 3在特定基准测试中领先或落后于Llama,说明后训练过程让模型能力在特定方面有了针对性提升。

Nous Research是一家成立于2023年的私人应用研究小组运营商,总部位于纽约。公司共有10名成员,上一次种子轮融资筹集了520万美元。公司官网宣言挑战封闭技术,提供强大的开源代码。根据HuggingFace主页,Nous Research已发布5个数据集和89个模型,包括Hermes 2、Hermes 3、YaRN、Dolma等系列。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3167字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...