标签:防御评估

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

OpenAI、Anthropic和Google DeepMind罕见合作发表研究,揭示了当前大语言模型防御机制在自适应攻击下的系统性脆弱性。研究团队通过构建通用自适应攻击框架,...