里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元

AIGC动态12小时前发布 aitechtalk
95 0 0
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元

 

文章摘要


【关 键 词】 语音大模型LLaSO框架参考模型性能评估AI语音应用

未来智能语音场景的实现依赖能深度理解和处理人类语音的大型AI模型,但语音大模型领域发展缓慢。为打破僵局,北京深度逻辑智能科技有限公司推出了首个完全开放、端到端的语音大模型研究框架LLaSO。

语音大模型发展面临诸多挑战。技术路线上缺乏公认的标准范式;数据多为私有,其他研究者难以复现结果;现有数据集任务范围局限,忽略语音中丰富信息;交互模式单一,难以处理复杂纯语音对话,导致研究碎片化。

LLaSO框架由三个核心公开资源组成。LLaSO – Align是包含1200万样本的对齐数据集,用于让模型学会语音信号和文字语义的精准对应;LLaSO – Instruct是拥有1350万样本的多任务指令库,涵盖20种任务,支持三种交互模式;LLaSO – Eval是包含超1.5万个样本的评估基准,确保评估公平性和可复现性。

研究团队还训练并发布了参考模型LLaSO – Base,该模型有38亿参数,采用成功架构,训练分“对齐”和“指令微调”两阶段。

在实验中,将LLaSO – Base与多个业界领先模型在标准化评估基准LLaSO – Eval上对比。评估基准含15,044个样本、20种任务,划分为语言学、语义、副语言学三大类别。评估指标包括WER/CER、Accuracy、MAE、GPT – 4o Score、Abstention Rate。

结果显示,LLaSO – Base总体性能全面领先,在各任务上表现出色。在ASR任务上,其WER和CER最低,语音转录能力精准;在AQA任务上,虽标准模态得分稳健,但在更具挑战性模态下模态适应性更强;在副语言学任务上,几乎在所有任务取得顶尖或接近顶尖成绩,指令遵循能力和任务泛化性强。

LLaSO为语音大模型领域树立了开放、统一的基础标准,降低研究门槛,有望催化该领域下一波浪潮,让打造真正懂用户心声的AI语音应用成为可能

原文和模型


【原文链接】 阅读原文 [ 2911字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...