华中科技大学、香港科技大学联手攻克机器人视频预测难题

这项由华中科技大学、香港科技大学、香港科技大学广州校区及Robbyant公司联合完成的研究，以预印本形式于2026年6月9日发布在arXiv平台，论文编号为arXiv:2606.11187。有兴趣深入了解的读者可以通过这一编号查询完整论文。

假设你正在教一个学生做数学题，但你只让他练习每道题的最后一步，从不让他看整个解题过程。时间一长，这个学生虽然能快速完成最后一步的"填空"，却对整体思路毫无掌握。结果就是，换一道稍难的题，他就完全不知所措了。这正是当前机器人视觉智能训练所面临的困境。

在机器人技术领域，有一类被称为"世界行动模型"（World Action Models，简称WAM）的AI系统。它的工作方式是：先预测未来几帧的视频画面，再根据这些预测决定机器人下一步该怎么动。听起来很聪明，对吧？但问题在于，这类模型在训练时只盯着"下一帧"看，完全不管更远处会发生什么。就像那个只练最后一步的学生，模型学会了一种取巧的方式：反正相邻两帧画面差异极小，我只要把上一帧"复制粘贴"一下，稍微改改细节，误差就很小了。这种取巧被研究团队称为"近视监督"问题——模型的视野太短，只能看到脚下，看不到远方。

为了解决这个问题，来自华中科技大学、香港科技大学等机构的研究团队提出了一个名为"Next Forcing"的新训练框架。核心思路非常直观：与其只让模型预测"下一帧"，不如同时让它预测"下两帧"、"下三帧"乃至"下四帧"。这样一来，模型就没办法靠"复制粘贴"蒙混过关了，因为距离越远的画面，和当前画面的差异越大，只有真正理解了物体运动的规律，才能预测准确。

实验结果相当亮眼。在一个包含50种双臂协作机器人操作任务的标准测试集RoboTwin上，Next Forcing刷新了当前最好成绩：在固定场景测试中达到94.1%的成功率，在随机场景测试中达到93.5%。更值得关注的是，当视频帧率提升到50帧每秒时，Next Forcing的训练速度比此前最强的LingBot-VA方法快了2.3倍，而且最终效果更好。与此同时，这个方法还自带一个意外收获：推理速度提升了2倍，而且对物理规律的理解能力也显著增强，在通用视频生成任务上，视频质量指标下降超过50%（指标越低越好）。

一、从"只看脚下"到"抬头望远"：问题的根源在哪里

在正式介绍解决方案之前，有必要先搞清楚问题究竟出在哪里。当前主流的视频世界模型训练方式叫做"教师强迫"（teacher forcing）。顾名思义，就像一个严格的老师在旁边盯着学生做题，每一步都给出标准答案作为参考。具体到视频预测任务上，就是：模型在预测当前这帧视频时，可以看到之前所有帧的"标准答案"（真实视频帧），然后被要求预测"下一帧"应该是什么样子。

这种方式有一个致命弱点——相邻帧太像了。举个具体例子：如果视频是12帧每秒，那么相邻两帧之间只隔了1/12秒，一个机械臂在这短短的时间里移动的距离极其微小，两帧画面几乎一模一样。模型很快就发现了这个规律：只要把上一帧几乎原封不动地输出，再做一点微小调整，预测误差就能压得很低，而这比真正学习物体运动规律要容易得多。

当帧率提升到50帧每秒时，这个问题变得更加严重。相邻两帧之间的时间间隔缩短到1/50秒，画面几乎完全相同，"复制粘贴"策略几乎可以做到零误差。模型就更没有动力去学习真正的动态规律了，训练效率大幅下降，最终效果也很差。从实验数据来看，在50fps设置下，训练到5000步时，对比方法LingBot-VA的成功率只有45.5%（固定场景）和31.9%（随机场景），而模型需要训练到45000步才能达到较好的效果——这意味着大量的计算资源被浪费在了"没有营养"的训练信号上。

这就是"近视监督"问题的本质：训练信号太局部、太短视，模型被迫学习的是"如何让相邻帧看起来差不多"，而不是"如何理解物体在时间维度上的运动规律"。

二、多帧预测：给模型装上"望远镜"

Next Forcing的核心思想，可以用一个简单的烹饪比喻来理解。假设你在学习做一道复杂的菜，传统方法是：每次只评估你"下一步"操作得对不对，比如切菜切得匀不匀。但这样学出来的厨师，只懂得切菜，不知道整道菜从头到尾该怎么做。更好的方法是：评估你接下来三步的操作，不仅看切菜，还看炒菜时的火候控制，以及最后的调味。这样，你就必须在脑子里规划整个烹饪流程，而不是只盯着眼前这一刀。

Next Forcing就是这样工作的。它在原有的"预测下一帧"任务基础上，同时添加了预测"下两帧"、"下三帧"、"下四帧"的任务。研究团队将这些额外的预测任务称为"多块预测"（Multi-Chunk Prediction，简称MCP）。这里的"块"指的是一小段视频片段，而非单独一帧。

具体来说，整个系统由一个主模型和三个轻量级的辅助模块（MCP模块）组成。主模型负责预测"当前块"的视频内容，而三个MCP模块分别负责预测"下一块"、"下两块"和"下三块"的视频内容。这三个辅助模块像一条接力链：第一个模块预测近未来，第二个模块在第一个的基础上预测稍远的未来，第三个模块再在第二个的基础上预测更远的未来。每个模块的输出都会作为下一个模块的输入，形成一条"因果链"。

这种设计的精妙之处在于：越远的未来，画面和当前差异越大，越需要真正理解物体运动规律才能预测准确。通过强制模型同时预测多个时间尺度的未来，模型就必须学习物理动态，而不能再靠"复制粘贴"取巧。

三、技术细节：辅助模块是怎么工作的

要真正理解Next Forcing的工作原理，需要了解几个关键的技术设计，研究团队在这些设计上花费了大量心思。

第一个关键设计是"时间偏移"。对于每个MCP模块，系统会把训练视频在时间轴上向前移动若干帧，作为该模块的预测目标。比如对于预测"下一块"的模块，就把视频整体向前移动一个块的长度；对于预测"下两块"的模块，就移动两个块的长度。如果视频已经到末尾了，就用最后一帧重复填充。同时，每个模块还需要知道自己在预测"哪个时间位置"的内容，这通过调整位置编码（一种告诉模型"这是视频中第几帧"的技术）来实现，确保模块知道自己在预测未来第几步的情况。

第二个关键设计是"噪声注入策略"。这是Next Forcing中最微妙的部分，也是最重要的设计之一。视频预测模型的训练过程中，输入的是"加了噪声的视频帧"（就像一张模糊的照片），模型需要学会把这张模糊的照片"去噪"，还原成清晰的画面。关键在于加多少噪声：噪声越多，模型的输入越模糊，越需要依赖其他信息（比如上下文）才能正确去噪。研究团队让MCP辅助模块使用比主模型更高的噪声水平。道理很简单：如果辅助模块输入的噪声很少，它几乎能"自己搞定"去噪任务，就不需要参考主模型学到的特征了。但如果噪声很高，辅助模块就必须大量借助主模型提取的特征，这样主模型才会真正被MCP任务的训练信号所影响，从而学到更好的表示。这个设计确保了MCP的训练信号能够深深地渗透进主模型，而不只是停留在辅助模块自身。

第三个关键设计是"多层特征融合"。在一个深度神经网络中，不同深度的层学到的东西是不一样的：浅层（靠近输入的层）通常学习边缘、颜色等基础视觉特征，深层（靠近输出的层）则学习更抽象的语义概念。主模型共有30层。研究团队发现，仅仅使用最后一层的输出来指导MCP模块是不够的，因为这样训练信号只能影响到深层，而浅层得不到有效监督。于是，他们从第4层、第12层、第20层和第30层分别提取特征，将这四组特征拼接在一起，通过一个小型神经网络（两层MLP）压缩成一个统一的表示，再送入MCP模块。这样，MCP模块的训练误差在反向传播时，会同时影响主模型的浅层和深层，实现全方位的深度监督。

四、推理加速：训练时的"副产品"变成了实用工具

Next Forcing还带来了一个出乎意料的好处：推理速度提升。

在正常的视频生成推理过程中，模型需要逐帧（逐块）生成视频：先生成第1块，再生成第2块，再生成第3块……每一步都需要完整的去噪过程，计算量很大。这就像一条流水线，每次只能向前走一步。

但有了MCP模块，情况就不同了。由于MCP模块在训练时就学会了"在主模型预测当前块的同时，预测下一块的内容"，所以在推理时，可以让主模型预测当前块，同时让MCP模块预测下一块，二者并行运算。MCP模块的计算量远小于主模型（每个MCP模块只有3个Transformer层，而主模型有30个），所以加上MCP模块的额外计算开销几乎可以忽略不计。结果就是：每一步推理，视频向前推进了两块而不是一块，总推理速度提升了2倍。

这就像流水线改造：原来每次只能运出一批货，现在通过在装车的同时准备下一批，效率翻倍。

研究团队还提供了两种使用模式：如果用户更关注质量、不在乎速度，可以完全丢弃MCP模块，只使用主模型推理，效果和普通推理一样，但由于主模型在训练时受益于MCP的深度监督，其性能已经比普通训练的模型更好；如果用户更在乎速度，可以保留MCP模块，开启并行推理，2倍加速。两种模式使用同一个训练好的模型，无需重新训练。

五、实验验证：数字背后的故事

研究团队在多个任务上对Next Forcing进行了全面评测，结果从多个维度印证了这一方法的价值。

在RoboTwin机器人操控基准上，Next Forcing与多个对比方法进行了比较，包括X-VLA、π0、π0.5、Motus、Being-H0.7、Fast-WAM和LingBot-VA。固定场景测试结果依次为72.9%、65.9%、82.7%、88.7%、90.2%、91.9%、92.9%，而Next Forcing达到了94.1%；随机场景测试结果依次为72.8%、58.4%、76.8%、87.0%、89.6%、91.8%、91.5%，而Next Forcing达到了93.5%。

训练收敛速度的差异尤其显著。在12帧每秒的设置下，Next Forcing在训练1万步时就达到了90.0%的成功率，而LingBot-VA需要大约2万步才能达到同样水平，速度提升约2倍。到5万步收敛时，Next Forcing的最终成绩（94.1%/93.5%）也明显高于LingBot-VA（92.8%/91.8%）。在50帧每秒的设置下，差距更为悬殊。仅训练5000步时，Next Forcing在随机场景下就达到了61.6%，而LingBot-VA只有31.9%，差距高达29.7个百分点。Next Forcing在训练2万步时的效果，相当于LingBot-VA训练4.5万步的效果，训练效率提升了2.3倍。

研究团队还在一个名为PhyWorld的物理规律理解基准上进行了测试。这个基准专门评估视频生成模型是否真正理解物理世界的规律，比如匀速直线运动、弹性碰撞、抛体运动等。测试时去掉了机器人动作模块，只评估视频生成质量。Next Forcing在视频质量指标（FVD，越低越好）和"异常比例"（生成的视频违反物理规律的比例，越低越好）上都优于LingBot-VA。特别是在"模板外"测试（考察模型能否把学到的物理规律推广到训练时没见过的场景）中，差距更为明显，说明Next Forcing学到的是真正可迁移的物理规律，而不只是记住了特定的动画模板。

为了验证这一方法是否仅对机器人任务有效，研究团队还在一个包含约350万段普通视频（主要是人类活动场景）的数据集上进行了预训练实验。结果显示，在两个不同类型的测试集上，Next Forcing的视频质量指标在整个训练过程中始终大幅低于LingBot-VA。训练5万步时，Next Forcing在测试集1上的FVD为94，而LingBot-VA为225，降低了约58%；在测试集2上分别为97和204，降低了约52%。更引人注意的是，Next Forcing在训练1万步时的效果就已经超过了LingBot-VA训练5万步的效果，足见其训练效率的提升并非偶然，也不局限于机器人场景。

六、消融实验：每个设计的贡献都被仔细审查过

研究团队对Next Forcing中的每一个设计选择都进行了系统性的消融实验——就是逐一拆除某个组件，看看性能会下降多少，从而判断这个组件的贡献是否真实。所有消融实验均在RoboTwin固定场景子集上训练2万步后评估。

基础模型（LingBot-VA默认设置）的成功率为75.6%。单纯加入MCP之后，成功率跃升至85.8%，提升了10.2个百分点，这是最直接的证明。

在基础模型的设计选择方面，研究团队发现去掉"带噪历史增强"（一种让模型看到带噪声历史帧的训练技巧）会导致成功率从75.6%大幅下降到69.8%。这说明模型在训练时如果只看到干净的历史帧，很容易学会"直接从干净历史中抄答案"的取巧方式，而加入噪声历史才能迫使模型真正学习预测能力。主模型的噪声时间步偏移参数smain的影响也很显著：设为1时成功率只有65.3%，设为10时最高达78.4%，设为20、25时则分别为77.6%和77.2%，呈现出先升后降的规律，说明适中的噪声水平最有利于训练。

在MCP模块设计方面，将MCP的噪声时间步偏移smcp从10降低到5（与主模型相同），成功率从85.8%降至83.2%。这印证了"高噪声迫使MCP模块依赖主模型特征"的设计直觉。去掉多层特征融合，只用主模型最后一层的输出，成功率降至83.6%，说明让训练信号影响主模型各个深度的设计确实有效。不初始化MCP模块权重（从头随机初始化，而不是从主模型的最后几层复制权重），成功率降至83.8%。对于每个MCP模块的Transformer层数，1层的成功率最高（86.5%），3层次之（85.8%），5层更低（85.0%）。研究团队最终选择3层，原因是1层虽然成功率略高，但生成的视频会出现更多视觉伪影（画面瑕疵），在推理加速模式下影响用户体验。

七、与其他方法的关系：互补而非竞争

Next Forcing在理解中有一个容易混淆的地方：它和另外两个同类方法——扩散强迫（Diffusion Forcing）与自我强迫（Self Forcing）——有什么区别？

这三种方法都是针对自回归视频生成的训练策略改进，但关注的角度完全不同。扩散强迫关注的是"如何安排噪声"：传统方法在训练时给每帧添加相同程度的噪声，而扩散强迫让每帧独立采样不同噪声水平，使得模型在训练时也能见到"部分帧清晰、部分帧模糊"的场景，从而缓解训练和推理时输入分布不一致的问题。自我强迫关注的是"用什么帧作为历史输入"：传统教师强迫在训练时用真实帧作为历史，推理时却用自己生成的帧作为历史，存在分布偏差；自我强迫直接在训练时就用自己生成的帧作为历史，消除这种偏差。Next Forcing关注的则是"要求模型预测什么"：不是改变噪声方案，也不是改变历史输入，而是扩大预测目标，从"预测当前帧"变成"同时预测多个未来帧"。

正因如此，Next Forcing与上述两种方法在技术上是完全正交的，可以自由组合。如果未来有研究者想把三者结合起来，理论上并无障碍。

说到底，Next Forcing做的事情其实可以用一句话概括：在原来"只考下一题"的训练模式上，额外加了"同时考后三题"的要求，让模型从只会做选择题变成真正理解题目背后的知识。这个思路的灵感来自大语言模型领域的"多Token预测"技术——在语言模型训练中，有研究者发现让模型同时预测未来多个词（而不是只预测下一个词），能显著提升训练效率和最终效果。Next Forcing是这一思想在视频世界模型领域的创造性移植，但这种移植并非简单的照搬，因为视频是连续信号而非离散符号，生成方式是迭代去噪而非一次性采样，时间依赖跨越多个尺度，每一个差异都需要专门的技术设计来处理。

归根结底，这项研究揭示了一个简单而深刻的道理：一个只被要求"看好眼前"的模型，永远不会主动学习"理解未来"。通过强制模型预测多个时间尺度的未来，不仅让训练更高效、效果更好，还顺带解决了推理速度慢的问题，并且在完全不同类型的视频数据上同样有效。这对整个视频AI领域来说是一个具有启发意义的方向——训练目标的设计，或许和模型架构、数据规模同样重要，值得更多关注。未来，机器人或许能更快地从视频数据中学会理解物理世界，而这一切的起点，只是简单地问它：除了下一步，你还能预测再后面几步吗？

Q&A

Q1：Next Forcing和普通视频AI训练方法有什么本质区别？

A：普通方法只让模型预测"下一帧"视频，导致模型学会"复制上一帧"的取巧方式，而不是真正理解物体运动规律。Next Forcing则强制模型同时预测未来三个时间段的视频内容，距离越远差异越大，模型必须真正学习物理动态才能预测准确，从而彻底杜绝了取巧行为。

Q2：Next Forcing的2倍推理加速是怎么实现的？

A：Next Forcing在训练时引入了轻量级辅助模块。推理时，主模型预测当前视频块，辅助模块同时并行预测下一块，由于辅助模块计算量很小（只有主模型的十分之一层数），几乎不增加延迟，却让每步推进两块视频，从而实现2倍加速。用户也可以选择不用辅助模块，只享受主模型因更好训练带来的质量提升。

Q3：Next Forcing为什么在高帧率视频上效果提升更明显？

A：帧率越高，相邻两帧画面越相似，"复制上一帧"的取巧方式越奏效，普通训练方法越难逼迫模型学习真正的动态规律。50fps时相邻帧几乎完全相同，普通方法收敛极慢。而多帧预测任务中，距离当前帧越远的未来帧差异越大，即使在50fps下也无法靠复制取巧，所以Next Forcing在高帧率场景下的提升最为显著，训练速度快了2.3倍。

群发资讯网

华中科技大学、香港科技大学联手攻克机器人视频预测难题

热门分类