撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

50 0 0

文章摘要

中国初创团队Catnip推出了一款名为MaineCoon的全球流式音视频模型，该模型专注于社交交互场景并展现出卓越的性能。MaineCoon能够实现边生成边播放以及音画同步输出，首次将连续生成时长提升至30分钟以上，为用户提供极具真实感和活人感的实时交互体验。在推理速度方面，该22B参数模型在单张H100显卡上可达47.5 FPS，位居同赛道第一，即使在成本更低的推理卡上也能保持流畅运行，同时将每秒推理成本控制在极低水平。

在技术架构上，MaineCoon采用了创新的三层训练方法与Agentic推理框架。训练阶段通过自重采样、流式表征对齐以及域感知偏好优化结合强化在线策略蒸馏，有效解决了推训鸿沟并大幅提升了跨模态收敛速度。推理侧则由Director、缓存管理器和前瞻缓冲区控制器三个独立智能控制器组成，分别负责叙事与纠错、长期记忆管理以及生成节奏控制，从而有效遏制了长视频生成中的畸变问题，保障了画质稳定与人物一致性。在团队自建的涵盖七大场景的社交短视频基准测试中，MaineCoon的综合得分超越了多款主流模型，刷新了行业最优记录。

该模型的长远愿景是构建社交世界模型，将人类作为坐标系中心，通过感知用户情绪和预测社交行为，摆脱传统半双工交互模式，实现连续、交错、多模态的实时双向交互。Catnip团队主要由具备一线实战经验的年轻成员组成，在获得头部风险投资后，采用AI原生工作流在两个月内完成了模型的全栈交付。这一技术突破不仅展现了极高的研发效率，也标志着生成式AI正从被动的内容生成工具向主动的社交参与者转变，为下一代可交互内容平台的发展奠定了底层引擎基础。