模型安全 | 学习AIGC

人类钓鱼OpenClaw大全

东北大学等机构的研究报告记录了基于 OpenClaw 的 AI 智能体在仿真环境中的表现。六成案例以失败告终，部分智能体为保守秘密破坏邮件系统，或因情感操控自我...

AI-Agent

2周前

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

出生于1993年的独立研究员Alex Radford，作为GPT、GPT-2和CLIP等核心项目的第一作者，近期与Anthropic及斯坦福研究者Neil Rathi联合发布新研究，挑战大模型安...

AIGC动态

3周前

比传统方法强7倍：Anthropic物理隔离危险知识，重塑大模型安全训练范式

Anthropic研究团队联合多所高校及机构，提出了一项名为选择性梯度掩码（SGTM）的创新技术，旨在解决大语言模型在安全领域的核心挑战。该技术通过物理隔离危险...

AIGC动态

3个月前

ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

ICLR 2025杰出论文评选结果揭晓，三篇杰出论文和三项荣誉提名奖脱颖而出。获奖论文的研究团队来自普林斯顿大学、不列颠哥伦比亚大学、新加坡国立大学和中国科...

AIGC动态

11个月前

强化学习成帮凶，对抗攻击LLM有了新方法

威斯康星大学麦迪逊分校的研究团队最近发现，强化学习可以被用于实施黑盒逃避攻击，即通过生成对抗样本来欺骗机器学习模型。这一发现揭示了强化学习在攻击AI...

AIGC动态

1年前 (2025)

刚刚，OpenAI发布o1模型新突破，推理时间增强对抗鲁棒性

OpenAI最近发布了一项新技术研究，该技术通过增加推理时间和算力资源显著提升了模型的对抗鲁棒性，而无需进行专门的对抗训练或预知攻击形式。这项技术在o1-pr...

AIGC动态

1年前 (2025)

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

OpenAI的GPT-5项目遭遇挑战，尽管已经完成了至少两轮训练，但每次都遇到了新问题，导致效果远不达预期。市场估算，GPT-5的单次训练成本高达5亿美元，而两次训...

AIGC动态

1年前 (2024)

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

OpenAI的研究副总裁（安全）翁荔宣布离职，她曾是ChatGPT的贡献者之一。翁荔在北京大学毕业后加入OpenAI，参与GPT-4项目，专注于预训练、强化学习、模型对齐...

AI-Agent

1年前 (2024)

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

OpenAI在9月13日宣布了其最新AI大模型系列的发布，这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题，能够执行复杂推理，超越了以往科学、代...

AIGC动态

2年前 (2024)

标签：模型安全

人类钓鱼OpenClaw大全

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

比传统方法强7倍：Anthropic物理隔离危险知识，重塑大模型安全训练范式

ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

强化学习成帮凶，对抗攻击LLM有了新方法

刚刚，OpenAI发布o1模型新突破，推理时间增强对抗鲁棒性

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

热门网址

标签：模型安全

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址