[LG]《Meta-Reinforcement Learning with Se

[LG]《Meta-Reinforcement Learning with Self-Reflection for Agentic Search》T Xiao, Y Yuan, H Ivison, H Zhu… [Allen Institute for AI & University of Washington] (2026)

在信息检索型问答任务中，强化学习智能体长期受困于一个结构性缺陷：每条轨迹相互独立，模型只在终点获得稀疏奖励，无从知晓"哪一步搜索走错了"。当任务要求多跳推理时，这一盲区被成倍放大——错误在工具调用链中悄然累积，却无处归因。

本文的核心洞见是：把"多次独立搜索尝试"重新看作"一个智能体跨越多幕的自我学习过程"。由此，在每幕结束后强制生成显式自我反思、并将其作为下一幕上下文输入这一关键操作，使跨幕探索得以实现；配合回合级折扣优势估计，让每次反思步骤都获得细粒度的信用分配，无需外部奖励模型。

这项工作真正留下的遗产是：证明了元强化学习的"跨情节上下文积累"思想可在纯文本智能体中以低成本实现，并在八个基准上带来9%至19%的实质提升。它为后来者打开的新门是：将测试时的序列反思与训练目标统一对齐，使模型能在推理阶段持续自我改进。但尚未跨过的门槛是：当前方案仅适用于有精确答案可供验证的任务，对长文本生成和多异构工具环境的扩展性仍是悬而未决的挑战。

arxiv.org/abs/2603.11327

机器学习人工智能论文 AI创造营

群发资讯网

[LG]《Meta-Reinforcement Learning with Se

热门分类