文章摘要
【关 键 词】 语音模型、局部编辑、语音克隆、情绪控制、架构创新
国产公司云上曲率推出的ViiTorVoice语音大模型在权威评测中登顶综合排名第一。该模型英文词错率为1.32,中文词错率降至0.99,成为全球首个中文词错率突破1.0大关的模型。它全面超越了多款主流竞品,在发音准确性和语义还原能力方面达到行业先进水平,为实时语音交互与视频配音提供了可靠的语音基础设施。
ViiTorVoice实现了片段级定向编辑,允许用户任意替换特定词句而保持整体音色、节奏和情感的绝对稳定。这彻底解决了传统语音生成中局部修改需整段重录的痛点,极大提升了影视后期、有声书及短剧出海的生产效率。同时,该模型通过引入条件生成技术与特殊标记,实现了对呼吸、笑声等副语言信息的词级别精准控制,有效消除了AI语音的机械感。
在底层架构上,研发团队采用非自回归架构,将修改部分挖空并根据前后文精准填补,不仅攻克了局部编辑壁垒,还将首帧延迟压缩至60毫秒以内。这种非自回归设计在实现极速推理效率的同时,保持了极低的计算成本。此外,该模型还首创了无参考文本的跨语种语音克隆技术,直接丢弃文本信息,从音频声学特征中提取发音习惯,实现无需对应文本即可进行多语种生成,为小语种短剧出海提供了高效的解决方案。
在商业与生态布局上,该模型已在真实的付费生产环境中日均稳定处理数十万小时音频。团队目前已开源了约十亿参数量的模型组件,全面拥抱开发者生态,推动了语音内容创作工作流的深刻变革。
原文和模型
【原文链接】 阅读原文 [ 3450字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



