换了30多种方言，我们竟然没能考倒中国电信的语音大模型

AIGC动态2年前 (2024)发布 almosthuman2014

4,321 0 0

文章摘要

中国电信人工智能研究院近日推出了业内首个支持30种方言自由混说的语音识别大模型，这是国内支持最多方言的语音识别大模型。该模型可以准确识别和理解粤语、上海话、四川话等多种方言，提高了语音识别准确率。中国电信在语音领域积累了大量高质量方言数据库，并自主研发了语音识别大模型。该模型采用“蒸馏+膨胀”联合训练算法，成功实现了单一模型支持30种方言的识别。在多项基准测试中，该模型表现出色，如国际语音顶会竞赛冠军。中国电信利用自身算力优势，在多个领域试点应用了该语音识别大模型，实现了方言语音输入的准确识别和转录，提高了服务效率。该模型还具有保护和传承方言文化的意义，助力濒危方言的记录和保护。中国电信在大模型领域进行了积极布局，推动了语音、语义、视觉等多模态大模型的发展。