
文章摘要
【关 键 词】 AI语音、技术升级、情感表达、多模态、模型架构
火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深度语义理解和上下文推理能力,实现更精准的情感表达。新模型支持三种操作模式:默认模式允许在台词前添加细节描述;语音指令可控制情绪、方言、语气和语速;引入上文则能帮助AI更好地理解完整内容。
在实测环节,升级后的语音模型展现了显著进步。通过复刻郭德纲、于谦的声音演绎发疯文学片段,AI成功捕捉到台词中的癫狂感和呐喊感,这在以往的平淡语音生成中难以实现。经典影视剧角色如《甄嬛传》的华妃和甄嬛,以及歌手单依纯的声音被复刻后,配合语音指令能生动还原颁奖典礼的调侃对话和虐心台词的情感张力。上下文引用功能的加入,使AI能更准确地处理带有大量停顿的即兴发言,显著改善了语句的连贯性。
技术层面,这次突破源于基于豆包大语言模型研发的新架构。模型不仅能理解对话背景和用户潜在意图,还能捕捉细腻的心理活动,在声音中注入真实情感。特别值得注意的是,新模型解决了复杂公式朗读的行业难题,将准确率从普遍低于50%提升至90%,覆盖小学到高中全学科范围。
除语音技术外,火山引擎同步升级了豆包大模型1.6,成为国内首个原生支持分档调节思考长度的Thinking模型。通过四种思考模式的训练,用户可在效果、时延和成本间取得平衡。同时推出的智能模型路由系统能根据任务复杂度自动匹配最优模型,测试显示在成本优先模式下可降低71%的综合成本。
多模态布局方面,从图像创作到语音模型的快速迭代,体现了火山引擎对AI技术三大趋势的把握:强化思考理解能力、丰富多模态交互、发展实用Agent智能体。这些技术已应用于小米智能助手、懂车帝AI选车等实际场景,豆包大模型的日均tokens调用量更在一年内增长253倍,达30万亿规模。目前,升级后的语音模型已开放体验,标志着AI语音技术向更具表现力和实用性的方向发展。
原文和模型
【原文链接】 阅读原文 [ 2598字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★