全球第一! 中国模型登顶榜首,首个可编辑AI语音来了

AIGC动态2小时前发布 AIera
47 0 0
全球第一! 中国模型登顶榜首,首个可编辑AI语音来了

 

文章摘要


【关 键 词】 语音模型局部编辑语音克隆情绪控制架构创新

国产公司云上曲率推出的ViiTorVoice语音大模型在权威评测中登顶综合排名第一。该模型英文词错率为1.32,中文词错率降至0.99,成为全球首个中文词错率突破1.0大关的模型。它全面超越了多款主流竞品,在发音准确性和语义还原能力方面达到行业先进水平,为实时语音交互与视频配音提供了可靠的语音基础设施。

ViiTorVoice实现了片段级定向编辑,允许用户任意替换特定词句而保持整体音色、节奏和情感的绝对稳定。这彻底解决了传统语音生成中局部修改需整段重录的痛点,极大提升了影视后期、有声书及短剧出海的生产效率。同时,该模型通过引入条件生成技术与特殊标记,实现了对呼吸、笑声等副语言信息的词级别精准控制,有效消除了AI语音的机械感。

在底层架构上,研发团队采用非自回归架构,将修改部分挖空并根据前后文精准填补,不仅攻克了局部编辑壁垒,还将首帧延迟压缩至60毫秒以内。这种非自回归设计在实现极速推理效率的同时,保持了极低的计算成本。此外,该模型还首创了无参考文本的跨语种语音克隆技术,直接丢弃文本信息,从音频声学特征中提取发音习惯,实现无需对应文本即可进行多语种生成,为小语种短剧出海提供了高效的解决方案。

在商业与生态布局上,该模型已在真实的付费生产环境中日均稳定处理数十万小时音频。团队目前已开源了约十亿参数量的模型组件,全面拥抱开发者生态,推动了语音内容创作工作流的深刻变革。

原文和模型


【原文链接】 阅读原文 [ 3450字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...