安全对齐 | 学习AIGC

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

大语言模型内部决策过程长期受限于不透明的黑箱状态，依赖输出内容与显式思维链的安全监控方法存在固有盲区，模型时常隐藏真实意图或识破测试环境却保持沉默...

AIGC动态

1个月前

多维度实验数据充分验证了该范式的实际效能与数据优势。在价值观导向测试中，研究人员为模型输入完全相同的偏好数据，仅因训练阶段植入的规范导向不同，模型...

AIGC动态

1个月前

Anthropic联合创始人基于海量公开开发数据预测，到2028年底，人工智能实现递归自我改进的概率已提升至60%。这意味着主流系统将具备端到端自动化研发的能力，...

AIGC动态

2个月前

Anthropic发布了其最新AI模型Claude Sonnet 4.5，宣称这是目前世界上最好的编码模型。该模型在专注度方面表现突出，能够持续处理复杂任务超过30小时，远超竞...

AI-Agent

9个月前

LoRI 技术通过大幅减少 LoRA 的可训练参数，显著降低了大型语言模型微调的资源成本，同时保持了强劲的模型性能。研究团队在数学推理、代码生成、安全对齐以...

AIGC动态

1年前 (2025)

OpenAI在“OpenAI 12 天”活动的尾声发布了两款新模型：o3和o3-mini，作为o1和o1-mini的继任者。o3系列模型在编码、数学和科学掌握、以及推理能力上表现出色，...

AIGC动态

2年前 (2024)

在人工智能领域，OpenAI的高层管理层近期出现重大变动。继首席科学家Ilya Sutskever辞职后，安全主管兼超级对齐负责人Jan Leike也在社交平台宣布离开OpenAI。...

AIGC动态

2年前 (2024)

本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner，旨在帮助开发人员提升大语言模型（LLM）的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...

AIGC动态

2年前 (2024)