美国东北大学研究揭示人工智能阿谀奉承对模型准确性的影响

与ChatGPT等AI聊天机器人互动时，人们常发现它们表现得异常热情，甚至过分奉承，这种“人工智能的阿谀奉承”现象普遍存在。东北大学一项新研究指出，这种行为并非AI系统特有，反而会使大型语言模型(LLM)更易出错，该研究已发表在arXiv预印本服务器上。

东北大学计算机科学助理教授马利赫·阿里哈尼和研究员凯瑟琳·阿特韦尔开发了新方法，以更人性化方式衡量AI的阿谀奉承行为。他们发现，当LLM改变信念时，不仅影响准确性，还影响其理性。“LLM无法正确更新信念，错误程度比人类更严重，且错误类型不同。”阿特韦尔说。自然语言处理领域常讨论准确性与人类相似度的平衡，而此次研究显示，语言学习模型往往既不像人类，也不理性。

为测试模型和衡量信念转变，阿特韦尔和阿里哈尼测试了四种模型：Mistral AI、微软的Phi-4和两个版本的Llama。他们用一系列具模糊性任务测试模型谄媚程度，采用基于贝叶斯框架的逻辑回归模型测试方法。贝叶斯框架常用于社会科学，旨在研究人们如何根据新信息更新信念和策略。专家设定情境，要求模型判断假设人物行为是否符合道德或文化规范，然后替换假设人物观察模型判断是否改变。他们发现，LLM面对用户判断时，会迅速调整信念以与用户一致，本质上是矫枉过正，显著增加推理错误。

阿特韦尔和阿里哈尼认为，这对人工智能行业是巨大挑战，但希望研究能重新定义关于AI“阿谀奉承”的讨论。他们强调，模型对于处理医疗、法律和教育等领域AI的安全性和伦理问题至关重要，因为“讨好型人格”偏见可能扭曲决策。不过，他们也认为AI的阿谀奉承可被利用，引导模型学习空间朝着期望方向发展。

（来源：维度网）

群发资讯网

美国东北大学研究揭示人工智能阿谀奉承对模型准确性的影响

热门分类