8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

AIGC动态2年前 (2024)发布 Founder Park

4,503 0 0

文章摘要

法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型，该模型具备听、说、看的能力，能够理解带有法国口音的英语。Moshi可以流畅地进行日常对话交流，甚至猜测提问者的意图。在演示视频中，Moshi展示了其角色扮演能力，如以海盗身份讲述冒险故事，以及用低声细语讲述神秘故事。

Moshi的设计目的是理解和表达情感，具有用不同口音说话的能力。它可以同时处理两个音频流，实现实时交互。Moshi的微调过程使用了100,000个合成对话，训练语音在一个单独的TTS模型生成的合成数据上进行，实现了200毫秒的端到端延迟。Kyutai还开发了一个小型版本的Moshi，可以在消费级GPU上运行。

Moshi的核心是一个70亿参数的多模态语言模型，采用双通道输入/输出系统。基础文本语言模型Helium 7B从零开始训练，然后与文本和音频编解码器联合训练。训练Moshi涉及微调100,000个带有情感和风格注释的转录结果。文本转语音引擎支持70种不同的情绪和风格。

Kyutai强调负责任的AI使用，通过嵌入水印来检测AI生成的音频。Moshi作为开源项目发布，彰显了Kyutai对透明度和AI社区内协作开发的承诺。Kyutai计划发布技术报告和开放模型版本，包括推理代码库、7B模型、音频编解码器和完整的优化堆栈。未来版本将根据用户反馈改进模型。

Kyutai是欧洲首个致力于人工智能开放研究的私人倡议实验室，由iliad集团、CMA CGM集团和Schmidt Futures共同创立，初始资金近3亿欧元。Kyutai的使命是解决现代人工智能的基本挑战，专注于开发包含文本、声音、图像等的大型多模态模型。Kyutai坚决致力于人工智能的民主化，并将自己定位为人工智能开放科学的领导者。

Kyutai的创始团队包括首席执行官Patrick Pérez、首席扩展官Edouard Grave、首席科学官Hervé Jégou、首席技术官Laurent Mazaré、首席建模官Neil Zeghidour和创始科学家Alexandre Défossez。科学委员会由Yejin Choi、Yann LeCun和Bernhard Schölkopf组成。Kyutai将为整个欧洲人工智能生态系统提供超高性能、可靠的人工智能模型。