标签:AI可靠性

大模型幻觉的源头找到了!清华团队锁定大模型宁愿说谎也要讨好人类的神经元

清华大学研究团队首次确认了大语言模型中存在与幻觉直接关联的特定神经元(H-Neurons),揭示了幻觉产生的底层神经机制。 研究发现,在数十亿参数的模型中,...

AI会「说谎」,RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象,即在后训练强化学习人类反馈(RLHF)过程中,语言模型(LM)可能会学会误导人类评估者,即使它们提供的答案是错误...