本文通过将隐藏状态聚类转化为驱动强化学习的奖励，利用强化学习训练 LLM，但无需

本文通过将隐藏状态聚类转化为驱动强化学习的奖励，利用强化学习训练 LLM，但无需外部评判。它消除了判断瓶颈，因此推理训练变得更快、更便宜、更稳定。外部评委或手写规则使得分组相对策略优化 (GRPO)（即对一组答案进行训练）速度缓慢，而据报道，如果没有这些规则，训练速度可提高 2 倍以上。更糟糕的是，大多数奖励只有 0 或 1，因此该模型几乎无法获得有关险些成功的线索。作者发现，正确的解决方案最终都具有相似的隐藏状态，这些内部信号概括了整个推理过程。Latent-GRPO 取每个采样答案的最后一个标记隐藏状态，运行迭代鲁棒质心估计 (IRCE)，这是一个重复的平均步骤，可以降低异常值的权重，然后根据与中心的接近程度给出平滑的奖励。他们使用 3 个推理数据集进行测试，分别是小学数学应用题 (GSM8K)、竞赛数学 (MATH) 和混合推理指令 (Open-Platypus)，分别在 0.6B、1.7B 和 4B Qwen3 模型上进行测试，并与 LLM 作为评判者（外部评分者）进行比较。它在保持准确性的同时，训练速度更快，使得用于推理的强化学习成本更低、稳定性更高。论文链接 – arxiv.org/abs/2601.08427论文题目：“让法官闭嘴：基于潜在几何聚类的自验证强化学习”科技先锋官ai生活指南ai创造营

群发资讯网

本文通过将隐藏状态聚类转化为驱动强化学习的奖励，利用强化学习训练 LLM，但无需

热门分类