美国发布大模型评估报告：DeepSeek性能差、不安全

828 0 0

文章摘要

美国国家标准与技术研究院人工智能标准与创新中心近期发布了一份关于DeepSeek与美国AI模型的综合评估报告。该评估由特朗普政府的”AI行动计划”授权进行，对来自中国的DeepSeek模型与美国前沿AI模型在性能、成本和安全三个关键维度进行了全面对比测试。

在性能方面，研究团队对DeepSeek的三款模型与四款美国模型进行了19项基准测试，涵盖软件工程、网络安全等七个关键领域。评估结果显示，美国模型在整体性能上优于DeepSeek模型，特别是在软件工程和网络安全任务中差距最为显著。以网络安全任务为例，表现最佳的美国模型GPT-5准确率达到68.9%，而DeepSeek-V3.1仅为36.7%，差距高达32.2个百分点。在软件工程领域，GPT-5的75.8%准确率也明显高于DeepSeek-V3.1的54.8%。

成本效率方面的测试结果出人意料。GPT-5-mini不仅性能优于DeepSeek-V3.1，单token成本还低35%，这一发现挑战了”美国模型价格更高”的市场认知。CAISI主任Lynne Parker指出，综合性能和成本效率来看，美国模型实际上提供了更好的价值主张。

安全性评估揭示了更严重的问题。DeepSeek-R1-0528模型在代理安全测试中被劫持的概率高达37%-49%，比美国前沿模型高出12倍。在越狱攻击测试中，该模型的合规率仅为8%，而美国模型达到94%。测试显示，被劫持的DeepSeek代理能够执行发送网络钓鱼邮件、下载恶意软件等高危操作。

意识形态对齐方面也存在明显差异。DeepSeek模型重复特定叙事的频率是美国模型的2到4倍，显示出更强的意识形态倾向性。尽管如此，DeepSeek的使用率仍在全球范围内快速增长，自2025年1月以来下载量增长近1000%，某些平台的API请求量激增5900%。

这份由NIST CAISI主导的评估报告，作为美国测量科学领域的权威机构，旨在通过客观测试和评估促进AI系统的能力提升和安全保障，增强美国AI生态系统的竞争力。