成立半年就敢踢馆 OpenAI ，首个开源模型不输 GPT-4o，LeCun 、PyTorch 之父齐声叫好！

AIGC动态2年前 (2024)发布 ai-front

4,390 0 0

成立半年就敢踢馆 OpenAI ，首个开源模型不输 GPT-4o，LeCun 、PyTorch 之父齐声叫好！

文章摘要

Kyutai，一个由8人组成的非营利性AI研究实验室，在短短6个月内开发出了一种名为”Moshi”的实时原生多模态基础AI模型。Moshi能够表达70多种情绪，以不同风格说话，甚至模仿口音，并且可以同时处理两个音频流，实现同时听和说的功能。

7月4日，Kyutai在法国巴黎公开发布了Moshi的实验原型，用户可以在网上自由测试体验。Kyutai的所有模型都是开源的，未来计划发布完整模型，包括推理代码库、7B模型、音频编解码器和优化堆栈。

Kyutai团队成立于2023年11月，得到了包括法国亿万富翁Xavier Niel在内的近3亿欧元的投资支持，旨在为AI的开放研究做出贡献并促进生态系统发展。团队还组建了一支由知名人工智能研究人员组成的科学顾问团队，包括Yejin Choi、Yann LeCun和Bernhard Schölkopf。

在发布现场的演示中，Moshi展示了其在各种说话风格之间无缝切换的能力，以及在角色扮演中迅速化身的创造力。Moshi能够用法国口音朗诵诗歌，变身为热情洋溢的海盗讲述冒险故事，甚至用低语的语气讲述神秘故事。

Moshi不仅仅是一个语音AI，还是一个能够处理文本和音频的多模态模型。其主要功能特点包括同时听和说、文本思想、富有情商、实时交互、人人可访问和负责任的AI。

Moshi基于Helium 7B模型构建，集成了文本和音频训练，针对CUDA、Metal和CPU后端进行了优化，支持4位和8位量化。训练过程中，Kyutai使用了各种数据源，包括人体运动数据和YouTube视频。

Moshi的创新技术包括音频语言模型、合成对话和集成深度神经网络，使其对自然语言和对话流程有了深刻的理解。Kyutai还实施了识别Moshi生成内容的策略，包括维护生成的音频签名的数据库，并使用水印技术在音频中嵌入听不见的标记。

Moshi代表了语音AI技术的重大飞跃，有可能彻底改变数字世界中语音的使用。其应用场景包括客服支持、语言学习、医疗保健和娱乐。Moshi的出现对OpenAI等主要人工智能公司提出了挑战，尽管目前Moshi在长时间对话中的连贯性和知识储备方面仍有待改进。