群发资讯网

[LG]《Generalized Distributional Alignmen

[LG]《Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning》M Mohri, J Schneider, Y Zhong [Google Researc] (2026)

在答案级微调中,小批量估计奖励是一个悬而未决的难题。过去的方法受困于直接取经验对数,本质原因是Jensen偏差会系统性惩罚低频答案。

本文的核心洞见是:把对齐目标重新看作可换几何的分布博弈。由此,用多项式奖励配合U统计量,或用全局极小极大多项式逼近,使偏差不再主导训练。

这项工作真正留下的遗产是把ALFT的奖励估计从启发式修补变成可证明工具箱。它打开的新门是零额外在线开销的稳定训练,但尚未跨过KL场景中有限样本的Θ(1/K²)下界。

arxiv.org/abs/2605.02435 机器学习 人工智能 论文 AI创造营