黄仁勋投了家复刻马斯克声音的AI公司

531 0 0

文章摘要

Cartesia公司近期完成1亿美元B轮融资，并同步发布新一代语音模型Sonic-3。这家由斯坦福AI实验室团队创立的公司，专注于实时语音AI技术开发，其核心产品采用状态空间模型（SSM）架构而非主流Transformer方案。新模型在情感表达和响应速度上取得突破，能模拟笑声、语气起伏等细微特征，端到端响应时间仅190毫秒，成为当前最快的语音生成系统之一。

公司创始团队背景引人注目，CEO Karan Goel是印度理工学院和卡内基梅隆大学培养的技术精英，师从AI领域权威Chris Ré。首席科学家Albert Gu作为Mamba架构共同发明人，带领团队将学术研究成果转化为商业产品。Cartesia的发展路径展现出”技术研发与资本运作双轮驱动”的鲜明特点，从2022年种子轮到今年连续完成A、B两轮融资，累计募资超1.6亿美元，英伟达等知名机构参与投资。

行业横向对比显示，中国公司MiniMax同日推出Speech 2.6语音模型，支持40多种语言并优化了特殊文本识别能力。语音AI赛道正呈现全球化竞争态势，技术迭代聚焦于降低延迟、提升多语言适应性和情感拟真度。值得注意的是，该领域商业化变现能力被业内视为大模型应用中的佼佼者，这或许解释了资本持续加注的现象。

团队学术基因深刻影响着技术路线选择，SSM架构模拟人类思维连续性处理对话的特性，避免了Transformer架构的重复计算缺陷。这种技术差异化可能成为Cartesia的核心竞争力，其模型在长对话场景中展现出更自然的交互体验。随着产品迭代加速，语音合成技术正在模糊人机边界，未来或将对电话会议、内容创作等领域产生深远影响。