“美国最该尴尬的，是今天中国开源模型们重大的贡献”

AIGC动态2年前 (2024)发布 Si-Planet

2,942 0 0

文章摘要

【关键词】 开源大模型、通义千问、DeepSeek V2、MiniCPM-2B、国际竞争力

摘要：

本文介绍了中国开源大模型在国际上的竞争力和影响力。文章首先提到了阿里巴巴的开源模型“通义千问”（Qwen），它在性能上全面赶超了GPT-4，并在Hugging Face开源大模型榜首上取得了显著成绩。通义千问提供了不同尺寸的模型，以满足不同场景的需求，其性能在各种基准测试中均获得了好评。

接着，文章介绍了深度求索公司发布的DeepSeek V2，这是一款MoE（Mixture of Experts）架构的大模型，其性能在多个排行榜中位列前三，且计算资源消耗远低于其他模型。DeepSeek V2的API定价极具竞争力，被SemiAnalysis公司认为是对其他模型实现“经济学碾压”的力量。

最后，文章提到了面壁智能的MiniCPM-2B模型，这是一个参数量较小的模型，但在性能上超越了同级别的Google Gemma 2B，甚至部分胜过了大参数的Llama2-13B和Llama2-70B-Chat。MiniCPM-2B的开源引起了海外社区的关注，被认为是一场改变游戏规则的革命。

总的来说，中国的开源大模型在国际上表现出色，不仅在性能上具有竞争力，而且在价格和部署门槛上也具有优势。这些模型的发展和开源策略正在为全球AI社区做出重要贡献，并挑战了美国AI公司的垄断地位。