[AI]《AI Alignment From Social Choice Perspectives》D Halpern, E Micha, A D. Procaccia, B Schiffer… [Google Research & University of Southern California & Harvard University] (2026)
在 AI 对齐领域,如何将多元且冲突的人类反馈转化为单一的模型目标是一个悬而未决的难题。过去的方法(如 RLHF)受困于将反馈视为带有噪声的单一真理,本质原因是其忽视了偏好聚合背后的社会选择逻辑,导致模型在面对价值分歧时往往采取黑盒式的折中。
本文的核心洞见是:把奖励建模重新看作一种社会选择协议。由此,将 Bradley-Terry 模型识别为 Borda 计票法的变体,并引入权重机制实现克隆鲁棒性,以及采用纳什均衡策略直接优化策略,使问题从单纯的统计估计转向了可证明的偏好聚合。
这项工作真正留下的遗产是为 AI 对齐建立了严谨的公理化基础,证明了社会选择理论能有效诊断并修复对齐算法中的结构性失效。它为后来者打开的新门是利用高阶偏好信息实现更公平的福利分配,但尚未跨过的门槛是如何在极度稀疏的真实反馈数据中维持这些理论保证的有效性。
arxiv.org/abs/2606.21550 机器学习 人工智能 论文 AI创造营
