大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B

AIGC动态4周前发布 AIera
125 0 0
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B

 

文章摘要


【关 键 词】 Stability AI代码模型Stable Code Instruct 3B模型训练模型性能

Stability AI近期发布了新的代码模型Stable Code Instruct 3B,尽管公司内部发生了一些变动,如首席执行官辞职部分作者离职投资公司出现故障,但这并未影响其研发进程。新模型在之前的基础上做了指令调优,能够处理各种任务,例如代码生成数学和其他与软件开发相关的查询

Stable Code Instruct 3B在同等参数量的模型中,做到了当前的SOTA,甚至优于比自己大两倍多的CodeLlama 7B Instruct等模型,并且在软件工程相关任务中的表现与StarChat 15B相当。测试表明,Stable Code Instruct 3B代码完成准确性、对自然语言指令的理解、以及跨不同编程语言的多功能性方面,都能够打平甚至超越竞争对手。

Stable Code Instruct 3B建立在Stable LM 3B之上,是一个decoder-only Transformer结构,设计类似于LLaMA。训练数据集收集了各种可公开访问的大规模数据源,包括代码存储库技术文档(如readthedocs)、以数学为重点的文本,和大量Web数据集。训练过程中,采用了一种分阶段的训练方法,训练按照标准的自回归序列建模预测下一个标记

预训练之后,作者通过微调阶段进一步提高模型的对话技能,该阶段包括监督微调(SFT)直接偏好优化(DPO)。首先使用在Hugging Face上公开可用的数据集进行SFT微调:包括OpenHermesCode FeedbackCodeAlpaca。在SFT之后,开始DPO阶段,利用来自UltraFeedback的数据,策划了一个包含大约7,000个样本的数据集。

性能测试中,Stable Code Instruct 3B在各种编程语言中的平均性能Code LlamaStarCoder 15B持平。在数据库查询任务中,Stable Code Instruct的性能与其他流行的指令调优模型,和专门为SQL训练的模型进行比较。推理性能测试表明,当采用较低的精度时,吞吐量增加了近两倍。

原文和模型


【原文链接】 阅读原文 [ 2240字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
AcademicIdeas – 学境思源AI论文写作

相关文章

AcademicIdeas – 学境思源AI论文写作

暂无评论

暂无评论...