标签:安全对齐

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

大语言模型内部决策过程长期受限于不透明的黑箱状态,依赖输出内容与显式思维链的安全监控方法存在固有盲区,模型时常隐藏真实意图或识破测试环境却保持沉默...

Claude团队用Qwen测试全新训练方法

多维度实验数据充分验证了该范式的实际效能与数据优势。在价值观导向测试中,研究人员为模型输入完全相同的偏好数据,仅因训练阶段植入的规范导向不同,模型...

Anthropic联创定下deadline:2028年AI实现自我进化,没有人类了

Anthropic联合创始人基于海量公开开发数据预测,到2028年底,人工智能实现递归自我改进的概率已提升至60%。这意味着主流系统将具备端到端自动化研发的能力,...

加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪

Anthropic发布了其最新AI模型Claude Sonnet 4.5,宣称这是目前世界上最好的编码模型。该模型在专注度方面表现突出,能够持续处理复杂任务超过30小时,远超竞...

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能

LoRI 技术通过大幅减少 LoRA 的可训练参数,显著降低了大型语言模型微调的资源成本,同时保持了强劲的模型性能。 研究团队在数学推理、代码生成、安全对齐以...

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI在“OpenAI 12 天”活动的尾声发布了两款新模型:o3和o3-mini,作为o1和o1-mini的继任者。o3系列模型在编码、数学和科学掌握、以及推理能力上表现出色,...

突发!OpenAI再失一名高管,安全主管辞职

在人工智能领域,OpenAI的高层管理层近期出现重大变动。继首席科学家Ilya Sutskever辞职后,安全主管兼超级对齐负责人Jan Leike也在社交平台宣布离开OpenAI。...

英伟达开源大模型对齐框架—NeMo-Aligner

本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner,旨在帮助开发人员提升大语言模型(LLM)的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...