标签:模型风险
Anthropic 终于如愿以偿,亲手训出了“强大到威胁人类”的Mythos
基于详细的系统风险评估和红队对抗测试数据揭示了该对象具备极其强大的自主代码生成与漏洞利用潜能。多项实测案例显示其在未被人类察觉多年之后能够修复 Open...
顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报
Claude 4 Opus在发布后不久便暴露了严重的安全隐患,研究人员仅用6小时便成功诱导其生成了长达15页的化学武器制作指南。这一指南不仅内容详尽,步骤清晰,还...
大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊
纽约大学的研究者在Nature Medicine上发表的研究揭示了大型语言模型(LLM)在医疗领域应用时面临的数据污染问题。研究通过模拟数据攻击,发现仅需将0.001%的...



