Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

AIGC动态2年前 (2024)发布 AIera

3,713 0 0

文章摘要

【关键词】 Meta公司、Llama系列、AI模型、Transformer、安全性

背景介绍：
Meta公司在2023年2月组建了一个跨领域的团队，致力于开发Llama系列模型。Llama 2模型于2023年7月发布，参数范围从7B到70B，代表了当时的先进技术。随后，Meta陆续发布了Code Llama和Purple Llama项目，分别关注模型的实用性和安全性。

Llama 3模型特点：
Llama 3模型使用了至少7倍于Llama 2的数据进行训练，超过15T个token。微调数据量增加了10倍，达到了1000万条人类标注数据。Llama 3还包括更大的词汇表、新的tokenizer，以及加倍的上下文窗口。尽管目前发布的是Llama 3的早期版本，但模型性能已经非常强劲，优于同类对比模型。

开发思路：
Llama 3的研发团队关注四个主要问题：模型架构、训练数据和计算资源、指令微调和模型安全性。Llama 3采用稠密自回归Transformer，引入群组查询注意力机制，并使用新的分词器。训练过程需要大量计算资源，Meta自建了计算集群。在指令微调方面，Meta扩大了人工标注数据规模，并采用了多种技术以平衡模型的可用性和安全性。

安全性考虑：
Meta团队在提高模型实用性的同时，也在安全性方面进行了权衡。团队投入大量时间进行红队测试，以识别和缓解潜在的安全风险。未来的研究方向是开发出融合红蓝队（攻击方和防御方）的模型，以最大化模型价值。

工具和系统：
Meta发布了Cybersec Eval系统，用于识别和防护提示注入、冒犯性内容和滥用代码解释器等攻击。此外，Llama Guard v1和v2工具可以用于内容审查，允许用户自定义并免费使用。

性能评估：
Llama 3在对抗提示词注入攻击方面表现出色，8B模型在拒绝率和违规率之间达到了理想平衡，而70B模型则更连贯、更智能。Code Llama 70B的高拒绝率是团队计划在未来模型中改进的问题。

总结：
Llama 3模型是Meta在大型语言模型领域的最新成果，其开源的训练思路和工具为整个生态系统的发展提供了支持。通过不断的技术创新和安全性考量，Meta正努力推动Llama系列模型在性能和安全性方面达到新的高度。