
文章摘要
近年来,短视频平台上AI生成的内容逐渐增多,且许多创意内容获得了较高的点赞和评论数据。利用AI制作以往难以实现或成本较高的内容,被认为是一个潜在的机会。上个月,一个Demo项目展示了通过AI工具重新演绎中国经典历史故事的可能性,如女娲补天、牛郎织女等。尽管视频生成技术已经相对成熟,但完整的视频制作还需要贴切的配音,而国内外在AI音频产品方面的表现却不尽如人意。
ElevenLabs作为全球知名的AI音频创业公司,在中文语音合成方面的表现令人失望,尤其是在语义理解和自然度上存在明显不足。然而,近期发现的一款国产产品MiniMax语音,展示了其在中文语音合成上的显著优势。MiniMax语音的新一代语音大模型Speech-02在语音合成效果上接近真人,能够还原停顿、重音等表达细节,并在中文、粤语、日语等亚洲语言上表现优异。该模型在Artificial Arena和Huggingface的榜单中名列前茅,远超ElevenLabs。
在《木兰辞》的配音项目中,MiniMax语音的表现尤为突出。通过音色设计、内容分段和情绪微调,团队仅用两小时便生成了符合预期的音频。音色设计阶段,通过提示词生成了适合古代英勇女性角色的音色,并在后续制作中对每一段内容进行细致的情绪调整。MiniMax语音支持对句子间停顿时间的精确控制,以及对音色效果和情绪的细微调节,这些功能极大地提升了音频的自然度和表现力。
在具体制作过程中,《木兰辞》被拆分为七个部分,每一部分根据内容情绪进行分段处理。例如,开头部分描述了花木兰的平静生活,音频生成时保持了平稳的情绪,并在句子间插入适当的停顿以增强层次感。后续部分则根据情节发展调整音色和情绪,如看到征兵告示时的无奈、决定替父从军时的果断等。最终,所有分段音频合并为完整的配音作品,效果令人满意。
MiniMax语音在产品设计上考虑周全,操作简便,且性价比高。其灵活的套餐选择和人性化的计费方式,使其在市场上具有显著优势。与ElevenLabs相比,MiniMax语音不仅在中文语音合成上表现更优,价格也更为亲民。AI工具的快速进步使得许多以往复杂的创作过程变得简单,为个人和小团队提供了更多实现创意的机会。无论是历史、体育、地理还是游戏,结合个人兴趣和AI工具,都有可能创作出优质的内容。
原文和模型
【原文链接】 阅读原文 [ 2934字 | 12分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★