全球第一！中国模型登顶榜首，首个可编辑AI语音来了

47 0 0

文章摘要

国产公司云上曲率推出的ViiTorVoice语音大模型在权威评测中登顶综合排名第一。该模型英文词错率为1.32，中文词错率降至0.99，成为全球首个中文词错率突破1.0大关的模型。它全面超越了多款主流竞品，在发音准确性和语义还原能力方面达到行业先进水平，为实时语音交互与视频配音提供了可靠的语音基础设施。

ViiTorVoice实现了片段级定向编辑，允许用户任意替换特定词句而保持整体音色、节奏和情感的绝对稳定。这彻底解决了传统语音生成中局部修改需整段重录的痛点，极大提升了影视后期、有声书及短剧出海的生产效率。同时，该模型通过引入条件生成技术与特殊标记，实现了对呼吸、笑声等副语言信息的词级别精准控制，有效消除了AI语音的机械感。

在底层架构上，研发团队采用非自回归架构，将修改部分挖空并根据前后文精准填补，不仅攻克了局部编辑壁垒，还将首帧延迟压缩至60毫秒以内。这种非自回归设计在实现极速推理效率的同时，保持了极低的计算成本。此外，该模型还首创了无参考文本的跨语种语音克隆技术，直接丢弃文本信息，从音频声学特征中提取发音习惯，实现无需对应文本即可进行多语种生成，为小语种短剧出海提供了高效的解决方案。

在商业与生态布局上，该模型已在真实的付费生产环境中日均稳定处理数十万小时音频。团队目前已开源了约十亿参数量的模型组件，全面拥抱开发者生态，推动了语音内容创作工作流的深刻变革。