GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

AIGC动态2年前 (2024)发布 AIera

4,206 0 0

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

文章摘要

OpenAI最近发布了一篇关于CriticGPT的新论文，这是前超级对齐团队的最后一项工作之一。CriticGPT基于GPT-4训练，旨在纠正GPT-4生成的代码错误，实现自我批评。

CriticGPT的训练方法依然采用了RLHF（Reinforcement Learning from Human Feedback），但其创新之处在于通过人为注入错误来训练模型生成批评意见。人类训练师对这些批评意见进行评分和排名，以改进模型的准确性和全面性。

FSBS策略在生成更长、更全面的批评意见时，减少了无中生有或挑剔现象的发生率。实验结果显示，CriticGPT在检测错误方面表现优异，尤其是在捕捉人为篡改的错误和原始输出中的错误方面。

评估结果表明，CriticGPT生成的批评意见在63%的情况下比人类的更受青睐。研究团队发现，人类评估者在没有LLM帮助下只能发现约25%的人为注入的错误，而CriticGPT和ChatGPT的表现都超过了人类。

研究还提出了人机合作模式的优势，结合人类和CriticGPT的团队表现能够超越单独工作时的效果。总体而言，CriticGPT通过自我批评和人类监督的结合，展示了AI模型自我提升的潜力。

原文和模型

【原文链接】 阅读原文 [ 2607字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4o
【摘要评分】 ★★★★☆

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # AI大模型 # GPT-GPTs # tag # 分析 # 总结 # 提取 # 标签

文章版权归作者所有，未经允许请勿转载。

为什么年轻人突然开始追求“县城感”？

admin

3,439

华为25亿卖掉价值102亿的问界商标，不再拥有整车品牌

admin

3,492

阿里大模型员工也自曝了996作息表

硅星人Pro

3,227

英伟达老员工集体“躺平”，在印钞机上数钱的快乐谁懂？

admin

3,787

体制内最不稳定的工作就是教师

admin

3,279

当领导的为什么看不得员工清闲？

admin

3,618

暂无评论

暂无评论...

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

文章摘要

原文和模型

钉钉集齐七大模型厂商：我们不是卖资源，而是要一起创新商业模式

端侧模型打响突围战！VC 疯抢，又一创企“杀”出

相关文章

暂无评论

热门网址

热门文章

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

文章摘要

原文和模型

钉钉集齐七大模型厂商：我们不是卖资源，而是要一起创新商业模式

​端侧模型打响突围战！VC 疯抢，又一创企“杀”出

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章

端侧模型打响突围战！VC 疯抢，又一创企“杀”出