151% 的增长背后，它正在成为 AI 的「新入口」

630 0 0

文章摘要

AI语音技术正以前所未有的速度发展，成为价值1500亿美元的新兴赛道。在声网与RTE开发者社区联合主办的Convo AI & RTE 2025大会上，专家们探讨了实时互动（RTE）与对话式AI的深度融合。声网创始人赵斌宣布，声网年度服务分钟数首次突破1万亿分钟，标志着RTE技术已成为数字社会的重要基础设施。调研显示，67%的企业已将语音AI置于战略核心，84%的企业计划增加相关投入，市场需求强劲。

对话式AI正推动RTE技术从”正常对话”向”声情并茂”跃迁。声网通过自研技术攻克了”听到、听懂、理解”三大难题。其SD-RTN网络实现76ms端到端延迟，较标准提升8倍；对话式AI引擎2.0新增声纹识别、数字人与视觉理解功能，将声音信号升级为有上下文的”场景数据流”。赵斌指出，人类对话中仅7%信息来自语言内容，超过90%依赖非语言要素，因此教会AI理解”言外之意”至关重要。

情感陪伴、智能硬件和在线教育被视为对话式AI率先落地的三大场景。在情感陪伴领域，AI正成为缓解孤独感的新载体，如珞博智能的AI毛绒宠物”芙崽”能感知用户情绪变化。教育领域，盒智科技的LOOKEE口语侠通过AURA系统分析孩子情感状态，实时调整教学策略。智能硬件方面，专家预测未来设备将成为能主动理解用户的”陪伴者”。

展区展示了AI语音技术的多样化应用。声网的TEN.VAD模型能将音频传输数据减少62%，改善交互体验。教育产品LOOKEE口语侠通过个性化声音设置提高学习兴趣；AI潮玩”芙崽”因具备长期记忆功能而退货率低于行业水平。此外，AI语音创企正拓展数字人配音、市场调研等应用场景，如ListenHub能在1-5分钟内将文本转化为自然语音。

AI音频技术已超越”听清”阶段，正向”听懂情绪”和”创造沉浸”迈进。从硬件到教育，从情感陪伴到日常交互，AI语音正在构建一个更智能、自然的有声世界。随着多模态大模型的成熟，这项技术有望成为下一代AI基础设施的核心组成部分，深刻改变人机交互方式。