清华大学教授黄民烈：如何把大模型“调教”成我们放心的样子

AI-Agent1年前 (2024)发布 ai-front

2,629 0 0

文章摘要

在讨论大模型安全问题的文章中，作者褚杏娟指出OpenAI安全团队与公司高层之间存在分歧，特别是首席科学家Ilya Sutskever离职后，大模型的安全问题再次成为舆论中心。文章提到，业内对大模型的安全问题形成了两派观点，一派认为对安全的紧迫感是过度夸张，而另一派则坚信安全问题刻不容缓。

国内对于大模型安全问题的容忍度实际上更低，相关的监管侧重点也有所不同。黄民烈教授在研究中提出了超级对齐（Superalignment）的概念，强调安全问题只是超级对齐的一个外显性质，并介绍了其研究团队在精确对齐算法EXO、目标优先级优化（Goal Prioritization）、模型安全探测器ShieldLM、以及黑盒提示优化（Black-box prompt Optimization）等方面的研究成果。

黄民烈教授还谈到了未来智能的发展方向，他认为未来的智能将是机器智能、情感智能和社交智能的融合，多模态融合和具身智能也是重要的发展方向。他还分享了自己对AGI（人工通用智能）的看法，认为现在的大模型对于实现AGI的水平还有较大差距，并强调了持续关注和投入安全研究的重要性。

最后，文章提到了AI前线举办的技术会议和活动，鼓励读者参与并对大模型的应用探索和Agent实践进行了解。