8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

AIGC动态1年前 (2024)发布 AIera

2,209 0 0

文章摘要

法国AI实验室kyutai近日发布了一款名为Moshi的实时原生多模态 AI模型，该模型在演示中展示了接近GPT-4o水平的性能，引起了广泛关注和AI界大佬的转发。Moshi的开发由一个8人团队在半年内完成，模型训练使用了大约1000个GPU。

Moshi模型具备理解和表达情感的能力，支持听、说、看，并能以70种不同的情绪和风格进行对话。其突出功能之一是能够同时处理两个音频流，即边听边说，实现实时互动。这一功能基于文本和音频混合的联合预训练，使用Helium中合成的文本数据，训练出一个具有70亿参数的模型。Moshi能够实现最低160ms的端到端延迟，并且其最小版本可以在笔记本电脑或消费级GPU上运行。

Moshi的开源特性使其成为了一个免费使用的资源，Pytorch之父对其在实时语音助手领域的领先地位表示赞叹，并期待Kyutai实验室稍后发布的代码。

在演示中，Moshi展示了其强大的语音能力和多语种表达能力，包括用不同风格的语气朗诵诗歌、讲述冒险故事，以及进行角色扮演等。Moshi能够在对话中即时反应，即使在问题尚未结束或被打断时也能给出回答，这得益于模型中的预测编码和即时更新机制。

目前，公众可以通过加入候补名单来体验Moshi，每次对话限时5分钟。Moshi的发布和演示不仅展示了AI技术的进步，也为未来AI应用提供了新的可能性和方向。