黄仁勋投了家复刻马斯克声音的AI公司

AIGC动态8小时前发布 QbitAI
41 0 0
黄仁勋投了家复刻马斯克声音的AI公司

 

文章摘要


【关 键 词】 语音AI融资发布状态空间模型斯坦福印度天才

Cartesia公司近期完成1亿美元B轮融资,并同步发布新一代语音模型Sonic-3。这家由斯坦福AI实验室团队创立的公司,专注于实时语音AI技术开发,其核心产品采用状态空间模型(SSM)架构而非主流Transformer方案。新模型在情感表达和响应速度上取得突破,能模拟笑声、语气起伏等细微特征,端到端响应时间仅190毫秒,成为当前最快的语音生成系统之一。

公司创始团队背景引人注目,CEO Karan Goel是印度理工学院和卡内基梅隆大学培养的技术精英,师从AI领域权威Chris Ré。首席科学家Albert Gu作为Mamba架构共同发明人,带领团队将学术研究成果转化为商业产品。Cartesia的发展路径展现出”技术研发与资本运作双轮驱动”的鲜明特点,从2022年种子轮到今年连续完成A、B两轮融资,累计募资超1.6亿美元,英伟达等知名机构参与投资。

行业横向对比显示,中国公司MiniMax同日推出Speech 2.6语音模型,支持40多种语言并优化了特殊文本识别能力。语音AI赛道正呈现全球化竞争态势,技术迭代聚焦于降低延迟、提升多语言适应性和情感拟真度。值得注意的是,该领域商业化变现能力被业内视为大模型应用中的佼佼者,这或许解释了资本持续加注的现象。

团队学术基因深刻影响着技术路线选择,SSM架构模拟人类思维连续性处理对话的特性,避免了Transformer架构的重复计算缺陷。这种技术差异化可能成为Cartesia的核心竞争力,其模型在长对话场景中展现出更自然的交互体验。随着产品迭代加速,语音合成技术正在模糊人机边界,未来或将对电话会议、内容创作等领域产生深远影响。

原文和模型


【原文链接】 阅读原文 [ 1378字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...