清华北航博士生「强迫」Gemma-2说中文！弱智吧、角色扮演、数学问题表现惊喜

AIGC动态1年前 (2024)发布 AIera

2,202 0 0

文章摘要

谷歌最新发布的Gemma 2模型在中文处理能力上存在不足，但清华大学和北航的两名博士生迅速推出了针对该模型的指令微调版本，显著提升了其在中文通用对话、角色扮演、数学和工具使用等方面的表现。Gemma 2模型虽然开源且功能强大，但其中文水平与英文相比仍有差距。通过微调技术，这一问题得到了有效解决。

7月1日，清华大学的博士生王慎执发布了Gemma-2-9B-Chinese-Chat模型，这是第一个为中文和英文用户量身定制的Gemma 2模型，经过超过10万条偏好对的微调。该模型在中文提示方面表现出色，逻辑、编码、数学和写作技能均有显著提升。项目的详细信息可以在Huggingface平台上查阅。仅一天之后，27B的微调版本也上线，下载量迅速超过3.4万次。

微调算法采用了ORPO，这是一种将监督微调（SFT）和偏好对齐方法（如RLHF或DPO）合二为一的聪明算法。与原始的9B Gemma 2模型相比，微调后的Gemma-2-9B-Chinese-Chat模型大大减少了「中文问题英文回答」和「中英文混杂回答」的问题，在角色扮演、工具使用和数学方面的表现都有所提高。

微调模型贡献者提供了一些示例，包括角色扮演、函数调用、数学、弱智吧、安全、写作和编码等方面的应用。角色扮演示例中，模型能够扮演周杰伦唱rap和鲁智深等角色，尽管在连续性上还有待改进。数学方面，模型能够轻松应对年龄问题和鸡兔同笼问题。弱智吧的文字游戏对NLP程序员来说是个挑战，但微调模型在处理这些言论时表现良好。

在函数调用方面，用户可以输入工具列表，模型会生成相应的JSON格式的调用列表。安全性方面，模型也展示了其在处理敏感信息时的谨慎态度。写作方面，模型能够生成关于人工智能的详细综述，涵盖了AI的定义、应用、技术分类和面临的挑战。编码方面，模型能够生成带有中文注释的Python代码，实现快速排序算法。

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微调模型的贡献者是清华大学自动化系LEAP实验室的博士生王慎执和郑耀威。王慎执在北京航空航天大学沈元荣誉学院获得计算机科学与技术专业的工学学士学位，目前在清华大学攻读博士学位，导师是宋士吉教授和黄高副教授。