腾讯混元团队在姚顺雨加入后发布的首篇论文《CL-BENCH: A Benchma

腾讯混元团队在姚顺雨加入后发布的首篇论文《CL-BENCH: A Benchmark for Context Learning》，首次系统性指出：当前大模型在“长上下文”上的核心短板，不是读不全、找不到，而是“学不会、用不对、执行不了”。

针对这一问题提出了一个新的评测范式——Context Learning（上下文学习），并构建了对应的基准测试 CL-Bench。

论文区分了两种常被混用的能力概念：In-Context Learning（ICL）：模型通过少量示例学习输入输出模式或格式，本质上是激活预训练中已有的知识结构；

Context Learning（上下文学习）：模型必须从一次性提供的上下文中，吸收此前未在预训练中掌握的新知识（如全新规则、流程、领域体系或隐含规律），并将其正确应用于后续任务。作者指出，后者才是人类在真实工作场景中最常见、也是 Agent 能否完成复杂任务的关键基础能力。

为评估这一能力，CL-Bench 构建了 500 个高复杂度长上下文任务，平均长度为 10.4k token，最长可达 65k token。所有上下文内容均为虚构知识、改写规则或极端长尾内容，确保模型无法依赖预训练知识“作弊”。

任务覆盖四大类型、19 个子类，分别模拟不同层级的人类上下文学习场景：领域知识推理：在全新规则体系下进行因果分析与决策；规则系统应用：在反直觉或封闭逻辑中严格推导；流程任务执行：按照复杂 SOP 完成多步骤操作；经验发现：从原始数据中归纳隐藏规律。

在评测方法上，CL-Bench 为每个任务设计了平均 16.6 条 Rubrics 规则，从事实、计算、流程、格式等多个维度进行验证。只有同时满足全部规则，任务才被判定为成功，强调“正确执行”而非“部分合理”。

实验结果显示，10 个前沿大模型在 CL-Bench 上的平均成功率仅为 17.2%，表现最好的 GPT-5.1（High）成功率为 23.7%。在最具挑战性的“经验发现”任务中，整体成功率进一步下降至 11.8%。同时，所有模型的表现均随着上下文长度增加而持续下降。

错误分析表明，模型失败主要集中在三类问题上：忽略关键信息；误用上下文规则或约束；未能遵守明确规定的输出格式或流程要求。

论文进一步指出，当前长上下文技术路线主要提升的是“读取与定位”能力，而非将上下文转化为可持续执行的内部知识。即便提高推理强度，也只能带来有限改进。

在讨论部分，作者提出了未来提升上下文学习能力的若干方向，包括：构造强上下文依赖的训练数据、采用课程式难度递进训练、将 Rubrics 转化为训练信号，以及探索更适合上下文利用的新模型架构。

论文最后强调，只有当模型能够快速内化陌生上下文，并精确、稳定地应用这些知识完成任务时，AI 才能真正成为可用的推理型 Agent。CL-Bench 的目标，正是为这一能力提供清晰、可检验的评估基准。腾讯AI人工智能

群发资讯网