里程碑！逻辑智能发布全球首个完全开源语音大模型框架LLaSO，语音AI迎来新纪元

95 0 0

文章摘要

【关键词】 语音大模型、LLaSO框架、参考模型、性能评估、AI语音应用

未来智能语音场景的实现依赖能深度理解和处理人类语音的大型AI模型，但语音大模型领域发展缓慢。为打破僵局，北京深度逻辑智能科技有限公司推出了首个完全开放、端到端的语音大模型研究框架LLaSO。

语音大模型发展面临诸多挑战。技术路线上缺乏公认的标准范式；数据多为私有，其他研究者难以复现结果；现有数据集任务范围局限，忽略语音中丰富信息；交互模式单一，难以处理复杂纯语音对话，导致研究碎片化。

LLaSO框架由三个核心公开资源组成。LLaSO – Align是包含1200万样本的对齐数据集，用于让模型学会语音信号和文字语义的精准对应；LLaSO – Instruct是拥有1350万样本的多任务指令库，涵盖20种任务，支持三种交互模式；LLaSO – Eval是包含超1.5万个样本的评估基准，确保评估公平性和可复现性。

研究团队还训练并发布了参考模型LLaSO – Base，该模型有38亿参数，采用成功架构，训练分“对齐”和“指令微调”两阶段。

在实验中，将LLaSO – Base与多个业界领先模型在标准化评估基准LLaSO – Eval上对比。评估基准含15,044个样本、20种任务，划分为语言学、语义、副语言学三大类别。评估指标包括WER/CER、Accuracy、MAE、GPT – 4o Score、Abstention Rate。

结果显示，LLaSO – Base总体性能全面领先，在各任务上表现出色。在ASR任务上，其WER和CER最低，语音转录能力精准；在AQA任务上，虽标准模态得分稳健，但在更具挑战性模态下模态适应性更强；在副语言学任务上，几乎在所有任务取得顶尖或接近顶尖成绩，指令遵循能力和任务泛化性强。

LLaSO为语音大模型领域树立了开放、统一的基础标准，降低研究门槛，有望催化该领域下一波浪潮，让打造真正懂用户心声的AI语音应用成为可能。