OpenAI藏了1年多的技术正式公开！15秒素材克隆声音，HeyGen也在用

AIGC动态2年前 (2024)发布 QbitAI

3,646 0 0

文章摘要

OpenAI最近正式揭幕了一款新的语音合成引擎Voice Engine，这项技术令人瞩目的特点在于，它能够仅凭15秒的语音样本克隆出一个人的声音，并且能够跨越不同语言。这项技术已经被集成到APP版ChatGPT的语音对话功能中。尽管OpenAI在2022年底就已经开发出了这项技术，但由于安全考虑，它一直未被公开。

Voice Engine的应用案例包括帮助非营利医疗机构的年轻病人恢复声音，以及视频翻译软件HeyGen的语音引擎。此外，一家儿童教育技术公司也利用这项技术为编写的画外音内容配音，提供阅读辅助。这些DEMO展示了基于短暂样本合成长段语音的能力。

在HeyGen的语音翻译技术中，原始的英语音频可以被翻译成普通话、法语、德语等多种语言，保持原始音色的同时，腔调上的差异表明了语音合成技术的局限性。Livox这款残障人士辅助应用也利用Voice Engine为不能说话的残障人士“发出声音”，提供了真人音色的选择，而不是机械感明显的合成音。

Voice Engine还能帮助因疾病导致声音发生重大改变的人群恢复患病之前的声音。例如，一名年轻患者因血管性脑肿瘤失去流利讲话能力，医生利用她患病前的声音样本，通过Voice Engine帮助她恢复了之前的音色。

尽管这项技术的积极应用受到了好评，但公众对其潜在滥用的担忧也随之而来。OpenAI对此表示出了高度的关注，采取了一系列安全措施，包括对开发者的严格筛选、要求明确说明声音是合成的、设置黑名单防止克隆公众人物声音、向合成声音中添加水印以便监控等。同时，OpenAI呼吁社会共同关注这一问题，建议逐步淘汰语音验证方式，探索个人声音的保护措施，教育公众理解AI的局限性，以及加速开发跟踪溯源技术，以便人们能够清晰辨别真人和AI声音。