折腾半天，我终于找到最懂中文的 AI 音频产品。

1,971 0 0

文章摘要

近年来，短视频平台上AI生成的内容逐渐增多，且许多创意内容获得了较高的点赞和评论数据。利用AI制作以往难以实现或成本较高的内容，被认为是一个潜在的机会。上个月，一个Demo项目展示了通过AI工具重新演绎中国经典历史故事的可能性，如女娲补天、牛郎织女等。尽管视频生成技术已经相对成熟，但完整的视频制作还需要贴切的配音，而国内外在AI音频产品方面的表现却不尽如人意。

ElevenLabs作为全球知名的AI音频创业公司，在中文语音合成方面的表现令人失望，尤其是在语义理解和自然度上存在明显不足。然而，近期发现的一款国产产品MiniMax语音，展示了其在中文语音合成上的显著优势。MiniMax语音的新一代语音大模型Speech-02在语音合成效果上接近真人，能够还原停顿、重音等表达细节，并在中文、粤语、日语等亚洲语言上表现优异。该模型在Artificial Arena和Huggingface的榜单中名列前茅，远超ElevenLabs。

在《木兰辞》的配音项目中，MiniMax语音的表现尤为突出。通过音色设计、内容分段和情绪微调，团队仅用两小时便生成了符合预期的音频。音色设计阶段，通过提示词生成了适合古代英勇女性角色的音色，并在后续制作中对每一段内容进行细致的情绪调整。MiniMax语音支持对句子间停顿时间的精确控制，以及对音色效果和情绪的细微调节，这些功能极大地提升了音频的自然度和表现力。

在具体制作过程中，《木兰辞》被拆分为七个部分，每一部分根据内容情绪进行分段处理。例如，开头部分描述了花木兰的平静生活，音频生成时保持了平稳的情绪，并在句子间插入适当的停顿以增强层次感。后续部分则根据情节发展调整音色和情绪，如看到征兵告示时的无奈、决定替父从军时的果断等。最终，所有分段音频合并为完整的配音作品，效果令人满意。

MiniMax语音在产品设计上考虑周全，操作简便，且性价比高。其灵活的套餐选择和人性化的计费方式，使其在市场上具有显著优势。与ElevenLabs相比，MiniMax语音不仅在中文语音合成上表现更优，价格也更为亲民。AI工具的快速进步使得许多以往复杂的创作过程变得简单，为个人和小团队提供了更多实现创意的机会。无论是历史、体育、地理还是游戏，结合个人兴趣和AI工具，都有可能创作出优质的内容。