标签:模型安全
人类钓鱼OpenClaw大全
东北大学等机构的研究报告记录了基于 OpenClaw 的 AI 智能体在仿真环境中的表现。六成案例以失败告终,部分智能体为保守秘密破坏邮件系统,或因情感操控自我...
GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍
出生于1993年的独立研究员Alex Radford,作为GPT、GPT-2和CLIP等核心项目的第一作者,近期与Anthropic及斯坦福研究者Neil Rathi联合发布新研究,挑战大模型安...
比传统方法强7倍:Anthropic物理隔离危险知识,重塑大模型安全训练范式
Anthropic研究团队联合多所高校及机构,提出了一项名为选择性梯度掩码(SGTM)的创新技术,旨在解决大语言模型在安全领域的核心挑战。该技术通过物理隔离危险...
ICLR 2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠
ICLR 2025杰出论文评选结果揭晓,三篇杰出论文和三项荣誉提名奖脱颖而出。获奖论文的研究团队来自普林斯顿大学、不列颠哥伦比亚大学、新加坡国立大学和中国科...
强化学习成帮凶,对抗攻击LLM有了新方法
威斯康星大学麦迪逊分校的研究团队最近发现,强化学习可以被用于实施黑盒逃避攻击,即通过生成对抗样本来欺骗机器学习模型。这一发现揭示了强化学习在攻击AI...
刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性
OpenAI最近发布了一项新技术研究,该技术通过增加推理时间和算力资源显著提升了模型的对抗鲁棒性,而无需进行专门的对抗训练或预知攻击形式。这项技术在o1-pr...
Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建
OpenAI的GPT-5项目遭遇挑战,尽管已经完成了至少两轮训练,但每次都遇到了新问题,导致效果远不达预期。市场估算,GPT-5的单次训练成本高达5亿美元,而两次训...
OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议
OpenAI的研究副总裁(安全)翁荔宣布离职,她曾是ChatGPT的贡献者之一。翁荔在北京大学毕业后加入OpenAI,参与GPT-4项目,专注于预训练、强化学习、模型对齐...
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理,超越了以往科学、代...



