标签:模型对齐

Opus 4.8:一个不太诚实的模型

Anthropic近期发布了Claude Opus 4.8模型,此次升级被官方定义为温和但确实存在的改进,核心卖点聚焦于提升模型的诚实度与可靠性,同时在编码与智能体能力上...

Opus 4.8 刚发布,Redis 之父质疑跑分:DHH 盛赞的 GPT-5.5,正在动摇编码王座

Anthropic发布了其旗舰模型Opus的最新版本Opus 4.8,此次升级的核心聚焦于开发者工作流的优化,而非单纯的基准测试跑分。新版本引入了动态工作流和更具性价比...

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

流匹配模型的后训练对齐长期面临严重的“跷跷板效应”,单一奖励强化学习虽能在孤立任务中逼近性能极限,却直接导致非目标领域能力发生剧烈退化;而混合奖励组...

无需构造偏好对:TGO用标量反馈对齐视觉生成模型|ICML’26

生成模型的偏好对齐正在从传统的成对比较转向利用标量反馈的新阶段。过往主流算法依赖成对偏好数据进行训练,虽结构优雅且计算高效,但将真实场景中连续的多...

七款主流大模型金融防骗实测:年化40%的骗局面前,AI比人类更清醒

实验数据显示,所有参测大模型对明确构成欺诈投资的认可率均为零,而人类群体的认可率则维持在百分之十三至百分之十四。面对持续的社交施压,人类放弃预警的...

2030 年 AGI 到来?谷歌 DeepMind 写了份「人类自保指南」

对于通用人工智能(AGI)的发展,硅谷巨头们正面临着一系列复杂的挑战和风险。谷歌 DeepMind 在近期发布的一份报告中,系统阐述了其对 AGI 安全的态度,并预...

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,深入分析了人类用户与32种流行大语言模型的偏好。研究通过真实用户-模型对话数据,分场景建...