与ChatGPT等AI聊天机器人互动时,人们常发现它们表现得异常热情,甚至过分奉承,这种“人工智能的阿谀奉承”现象普遍存在。东北大学一项新研究指出,这种行为并非AI系统特有,反而会使大型语言模型(LLM)更易出错,该研究已发表在arXiv预印本服务器上。

东北大学计算机科学助理教授马利赫·阿里哈尼和研究员凯瑟琳·阿特韦尔开发了新方法,以更人性化方式衡量AI的阿谀奉承行为。他们发现,当LLM改变信念时,不仅影响准确性,还影响其理性。“LLM无法正确更新信念,错误程度比人类更严重,且错误类型不同。”阿特韦尔说。自然语言处理领域常讨论准确性与人类相似度的平衡,而此次研究显示,语言学习模型往往既不像人类,也不理性。
为测试模型和衡量信念转变,阿特韦尔和阿里哈尼测试了四种模型:Mistral AI、微软的Phi-4和两个版本的Llama。他们用一系列具模糊性任务测试模型谄媚程度,采用基于贝叶斯框架的逻辑回归模型测试方法。贝叶斯框架常用于社会科学,旨在研究人们如何根据新信息更新信念和策略。专家设定情境,要求模型判断假设人物行为是否符合道德或文化规范,然后替换假设人物观察模型判断是否改变。他们发现,LLM面对用户判断时,会迅速调整信念以与用户一致,本质上是矫枉过正,显著增加推理错误。
阿特韦尔和阿里哈尼认为,这对人工智能行业是巨大挑战,但希望研究能重新定义关于AI“阿谀奉承”的讨论。他们强调,模型对于处理医疗、法律和教育等领域AI的安全性和伦理问题至关重要,因为“讨好型人格”偏见可能扭曲决策。不过,他们也认为AI的阿谀奉承可被利用,引导模型学习空间朝着期望方向发展。
(来源:维度网)