OpenAI发布Voice Engine，15秒克隆任何语音，霉霉说中文就靠它

AIGC动态2年前 (2024)发布 Si-Planet

2,881 0 0

文章摘要

【关键词】 OpenAI新模型、Voice Engine、语音合成、技术应用、安全措施

OpenAI近期发布了一个新的语音合成模型Voice Engine，这个模型仅需文本输入和一个15秒的音频样本，就能生成与原始说话者声音极其相似的自然语音。这项技术最初是为文本到语音API以及ChatGPT的语音和朗读功能提供支持。OpenAI在发布时采取了低调的态度，这可能是由于他们对合成语音被滥用的潜在风险持谨慎态度。

Voice Engine的特点是能够使用一个小型模型和短暂的音频样本创造出富有感情和逼真的声音。这项技术已经被AIGC初创公司HeyGen采用，用于视频翻译和生成数字虚拟人化身，应用范围广泛，从产品营销到教学演示等。

OpenAI也与其他合作伙伴进行了私下测试，探索Voice Engine在不同行业中的应用。例如，为儿童和阅读能力有限的人群提供阅读辅助，改善偏远地区的基础服务，辅助语音表达障碍人群，以及帮助患者恢复语音。这些应用示例显示了Voice Engine在教育、健康和社会服务方面的潜力。

在安全问题方面，OpenAI表示他们在开发过程中一直在与各界合作伙伴接触，以采纳反馈并实施安全措施，如为生成的音频添加水印以追踪来源，以及主动监控使用情况。OpenAI目前选择预览而不是广泛发布Voice Engine，并强调了社会需要加强应对合成语音挑战的能力，提出了一系列建议，包括淘汰基于语音的身份验证、保护个人声音的政策、教育公众了解AI技术的能力和局限性、加快开发追踪视听内容来源的技术等。

此外，OpenAI的合作伙伴微软计划打造一台成本高达1000亿美元的超级计算机「Stargate」，这将大幅提升OpenAI的人工智能算力。这表明AI技术的竞争日益激烈，OpenAI和其他公司都在积极推进技术的发展和应用。

总的来说，OpenAI的Voice Engine展示了合成语音技术的进步和潜在应用，同时也突显了在这一领域中安全和伦理问题的重要性。OpenAI在推进技术的同时，也在努力塑造一个安全负责的企业形象，并与社会各界合作，以确保技术的正面影响。