谷歌干掉了「等你说完才翻译」！70+语言边听边译

32 0 0

文章摘要

Google近期发布了名为Gemini 3.5 Live Translate的最新语音对语音翻译模型，标志着实时同声传译技术的重大突破。该模型打破了传统翻译设备“等待说完再翻译”的模式，实现了“边听边译”的实时交互，将翻译延迟缩短至几秒钟。在技术实现上，模型能够在准确性与低延迟之间取得平衡，确保输出连贯且无明显卡顿。此外，该技术还能精准保留说话人的语速、音高和语调，使翻译后的语音具备高度的自然度。

在核心性能方面，该模型基于Gemini 3 Pro构建，支持长达128K token的音频上下文，并具备自动识别70多种语言的能力，能够在全自动模式下应对多语言切换及嘈杂环境。为了推动技术的全面普及，Google针对开发者、企业用户和普通消费者推出了多维度的应用方案。开发者可通过相关API和AI工作室进行测试与接入；企业用户可在视频会议软件中体验支持70多种语言和上千种语言组合的会议翻译功能；普通用户则能通过移动端翻译应用结合耳机或手机的聆听模式便捷使用。

在实际商业落地方面，该模型已在东南亚出行平台等场景中进行测试，成功应用于每月超千万次的司乘语音通话中，有效解决了跨语言沟通障碍。多个早期接入的开发者和合作企业反馈表明，该技术在翻译质量、准确度以及低延迟方面表现优异，为视频配音、多语直播和跨语言客服等场景提供了现成的解决方案。

回顾Google翻译长达二十年的发展历程，其服务已从最初的文本翻译扩展至图像识别，并最终演进为如今的实时语音同传。尽管官方指出该模型目前仅支持音频输入，且在应对重口音、频繁切换语言或多人抢话等复杂场景时仍存在声音复刻不稳定的局限，但这一技术的推出显著降低了同声传译的使用门槛。实时语音翻译技术正逐步从专业领域走向大众日常应用，为消除全球语言沟通壁垒提供了强大的技术支持。