字节大模型同传智能体，一出手就是媲美人类的同声传译水平

AI-Agent12个月前发布 almosthuman2014

2,548 0 0

文章摘要

近年来，人工智能在自然语言处理领域取得了显著进展，但同声传译（Simultaneous Interpretation, SI）依然是一个挑战。传统的同声传译软件通常采用级联模型，先进行自动语音识别（ASR），再进行机器翻译（MT），但这种方法存在错误传播问题，导致翻译质量下降。为了解决这一问题，字节跳动 ByteDance Research 团队推出了一款名为 Cross Language Agent – Simultaneous Interpretation (CLASI) 的端到端同声传译智能体，其翻译效果已接近专业人工水平。

CLASI 采用了端到端的架构，避免了级联模型中的错误传播问题。它基于豆包基座大模型和豆包大模型语音组的语音理解能力，并具备从外部获取知识的能力，形成了足以媲美人类水平的同声传译系统。研究人员在中英、英中翻译语向上进行了人工评测，使用与人工同传一致的评价指标：有效信息占比（百分制）。结果显示，CLASI 在某些测试集上甚至达到或超过了人类同传水平。

CLASI 的系统架构基于大型语言模型（LLM）智能体，将同声传译定义为一系列简单且协调的操作，包括读入音频流、检索（可选）、读取记忆体、更新记忆体和输出等。整个流程由大语言模型自主控制，实现了实时性和翻译质量之间的高效平衡。CLASI 的底层模型是一个 Encoder-conditioned LLM，在海量的无监督和有监督数据上进行了预训练。

实验结果表明，CLASI 在人工评测的有效信息占比（Valid Information Proportion, VIP）中显著超过了其他所有竞品，并在两个语向上均达到了 78% 以上的准确性。一般而言，人类同传的准确性在 70% 以上，理想情况下可以达到 95%，研究人员以 80% 的准确性作为高水平人类译员的平均标准。

CLASI 的优势在于：
1. 采用了一种通过模仿专业人类译员的数据驱动的读写策略，无需复杂的人类预设计，即可轻松平衡翻译质量和延迟。
2. 引入了一种多模态检索增强生成（MM-RAG）过程，使 LLM 实时地具有领域特定的知识，以最小的计算开销进一步提高了翻译质量。
3. 与专业人类同传译员密切合作，制定了新的人工评估策略 “有效信息占比”(VIP)，并公开了详细的指南，同时发布了一个更接近现实场景的长语音翻译的多领域人工标注测试集。

总之，CLASI 作为基于豆包大模型的同传智能体，得益于大规模预训练和模仿学习，在人工评估中表现出色，显著优于现有的自动同声传译系统的性能，几乎达到人类同传水平。这一成果展示了人工智能在同声传译领域的巨大潜力和先进能力，为未来同声传译技术的发展提供了新的方向。