端侧模型打响突围战！VC 疯抢，又一创企“杀”出

AIGC动态2年前 (2024)发布 ai-front

3,935 0 0

文章摘要

在2024年，人工智能领域经历了一场重大的变革，其中三家公司Cohere、Mistral AI和SakanaAI分别完成了巨额融资，这标志着大模型技术的新篇章。

Cohere公司以50亿美元的估值获得了4.5亿美元的融资，而Mistral AI获得了6亿欧元的投资，SakanaAI也即将获得超过1亿美元的融资。这些公司正在寻求以更小的参数规模和更低的成本实现端侧的突破，挑战OpenAI的市场地位。

Cohere公司开源的Aya 23模型支持23种语言，拥有80亿和350亿两种参数规模。Mistral AI的70亿参数模型击败了Llama 2，而其另一款模型Mistral Large的开发成本仅为2200万美元，远低于GPT-4的开发成本。SakanaAI则利用其“模型合并”技术，实现了对算力资源需求极小化，并能显著缩短数据学习周期。

这场AI技术的竞争已经不再是简单的算力和数据量的堆砌，而是转向了寻求Transformer架构之外的新可能性。例如，RockAI公司就走出了一条自己的进化路径，开发了国内首个非Attention机制的通用自然语言大模型——Yan1.0模型。

Yan1.0模型的成功展示了在个人电脑端的运行推理能力，证明了其可以在主流消费级CPU等端侧设备上实现“原生无损”运行。这种无损部署与有损压缩相对，后者是当前大模型部署到设备端的主流方式。Yan模型的无损部署避免了多模态下的性能损失，并具备再学习的能力，使其成为“天选级”端侧模型。

RockAI的创始人刘凡平对底层技术架构的创新和突破有着深刻的认识。他认为，数据和算力并非最终的瓶颈，架构和算法才是关键。Yan2.0模型预计将在年底或明年初面世，它将进一步提升模型的多模态能力，并结合同步学习的能力，实现在感知、认知、决策和行动方面的全面提升。

刘凡平的愿景是打造一个全模态实时人机交互系统，使AI技术更加易于获取和使用，推动普惠人工智能的发展。随着Yan2.0模型的逐步完善，一个在各种设备或终端中进行无损部署的大模型蓝图正在展开，预示着个性化智能服务的新时代即将到来。