群发资讯网

华中科技大学、香港科技大学联手攻克机器人视频预测难题

这项由华中科技大学、香港科技大学、香港科技大学广州校区及Robbyant公司联合完成的研究,以预印本形式于2026年6月

这项由华中科技大学、香港科技大学、香港科技大学广州校区及Robbyant公司联合完成的研究,以预印本形式于2026年6月9日发布在arXiv平台,论文编号为arXiv:2606.11187。有兴趣深入了解的读者可以通过这一编号查询完整论文。

假设你正在教一个学生做数学题,但你只让他练习每道题的最后一步,从不让他看整个解题过程。时间一长,这个学生虽然能快速完成最后一步的"填空",却对整体思路毫无掌握。结果就是,换一道稍难的题,他就完全不知所措了。这正是当前机器人视觉智能训练所面临的困境。

在机器人技术领域,有一类被称为"世界行动模型"(World Action Models,简称WAM)的AI系统。它的工作方式是:先预测未来几帧的视频画面,再根据这些预测决定机器人下一步该怎么动。听起来很聪明,对吧?但问题在于,这类模型在训练时只盯着"下一帧"看,完全不管更远处会发生什么。就像那个只练最后一步的学生,模型学会了一种取巧的方式:反正相邻两帧画面差异极小,我只要把上一帧"复制粘贴"一下,稍微改改细节,误差就很小了。这种取巧被研究团队称为"近视监督"问题——模型的视野太短,只能看到脚下,看不到远方。

为了解决这个问题,来自华中科技大学、香港科技大学等机构的研究团队提出了一个名为"Next Forcing"的新训练框架。核心思路非常直观:与其只让模型预测"下一帧",不如同时让它预测"下两帧"、"下三帧"乃至"下四帧"。这样一来,模型就没办法靠"复制粘贴"蒙混过关了,因为距离越远的画面,和当前画面的差异越大,只有真正理解了物体运动的规律,才能预测准确。

实验结果相当亮眼。在一个包含50种双臂协作机器人操作任务的标准测试集RoboTwin上,Next Forcing刷新了当前最好成绩:在固定场景测试中达到94.1%的成功率,在随机场景测试中达到93.5%。更值得关注的是,当视频帧率提升到50帧每秒时,Next Forcing的训练速度比此前最强的LingBot-VA方法快了2.3倍,而且最终效果更好。与此同时,这个方法还自带一个意外收获:推理速度提升了2倍,而且对物理规律的理解能力也显著增强,在通用视频生成任务上,视频质量指标下降超过50%(指标越低越好)。

一、从"只看脚下"到"抬头望远":问题的根源在哪里

在正式介绍解决方案之前,有必要先搞清楚问题究竟出在哪里。当前主流的视频世界模型训练方式叫做"教师强迫"(teacher forcing)。顾名思义,就像一个严格的老师在旁边盯着学生做题,每一步都给出标准答案作为参考。具体到视频预测任务上,就是:模型在预测当前这帧视频时,可以看到之前所有帧的"标准答案"(真实视频帧),然后被要求预测"下一帧"应该是什么样子。

这种方式有一个致命弱点——相邻帧太像了。举个具体例子:如果视频是12帧每秒,那么相邻两帧之间只隔了1/12秒,一个机械臂在这短短的时间里移动的距离极其微小,两帧画面几乎一模一样。模型很快就发现了这个规律:只要把上一帧几乎原封不动地输出,再做一点微小调整,预测误差就能压得很低,而这比真正学习物体运动规律要容易得多。

当帧率提升到50帧每秒时,这个问题变得更加严重。相邻两帧之间的时间间隔缩短到1/50秒,画面几乎完全相同,"复制粘贴"策略几乎可以做到零误差。模型就更没有动力去学习真正的动态规律了,训练效率大幅下降,最终效果也很差。从实验数据来看,在50fps设置下,训练到5000步时,对比方法LingBot-VA的成功率只有45.5%(固定场景)和31.9%(随机场景),而模型需要训练到45000步才能达到较好的效果——这意味着大量的计算资源被浪费在了"没有营养"的训练信号上。

这就是"近视监督"问题的本质:训练信号太局部、太短视,模型被迫学习的是"如何让相邻帧看起来差不多",而不是"如何理解物体在时间维度上的运动规律"。

二、多帧预测:给模型装上"望远镜"

Next Forcing的核心思想,可以用一个简单的烹饪比喻来理解。假设你在学习做一道复杂的菜,传统方法是:每次只评估你"下一步"操作得对不对,比如切菜切得匀不匀。但这样学出来的厨师,只懂得切菜,不知道整道菜从头到尾该怎么做。更好的方法是:评估你接下来三步的操作,不仅看切菜,还看炒菜时的火候控制,以及最后的调味。这样,你就必须在脑子里规划整个烹饪流程,而不是只盯着眼前这一刀。

Next Forcing就是这样工作的。它在原有的"预测下一帧"任务基础上,同时添加了预测"下两帧"、"下三帧"、"下四帧"的任务。研究团队将这些额外的预测任务称为"多块预测"(Multi-Chunk Prediction,简称MCP)。这里的"块"指的是一小段视频片段,而非单独一帧。

具体来说,整个系统由一个主模型和三个轻量级的辅助模块(MCP模块)组成。主模型负责预测"当前块"的视频内容,而三个MCP模块分别负责预测"下一块"、"下两块"和"下三块"的视频内容。这三个辅助模块像一条接力链:第一个模块预测近未来,第二个模块在第一个的基础上预测稍远的未来,第三个模块再在第二个的基础上预测更远的未来。每个模块的输出都会作为下一个模块的输入,形成一条"因果链"。

这种设计的精妙之处在于:越远的未来,画面和当前差异越大,越需要真正理解物体运动规律才能预测准确。通过强制模型同时预测多个时间尺度的未来,模型就必须学习物理动态,而不能再靠"复制粘贴"取巧。

三、技术细节:辅助模块是怎么工作的

要真正理解Next Forcing的工作原理,需要了解几个关键的技术设计,研究团队在这些设计上花费了大量心思。

第一个关键设计是"时间偏移"。对于每个MCP模块,系统会把训练视频在时间轴上向前移动若干帧,作为该模块的预测目标。比如对于预测"下一块"的模块,就把视频整体向前移动一个块的长度;对于预测"下两块"的模块,就移动两个块的长度。如果视频已经到末尾了,就用最后一帧重复填充。同时,每个模块还需要知道自己在预测"哪个时间位置"的内容,这通过调整位置编码(一种告诉模型"这是视频中第几帧"的技术)来实现,确保模块知道自己在预测未来第几步的情况。

第二个关键设计是"噪声注入策略"。这是Next Forcing中最微妙的部分,也是最重要的设计之一。视频预测模型的训练过程中,输入的是"加了噪声的视频帧"(就像一张模糊的照片),模型需要学会把这张模糊的照片"去噪",还原成清晰的画面。关键在于加多少噪声:噪声越多,模型的输入越模糊,越需要依赖其他信息(比如上下文)才能正确去噪。研究团队让MCP辅助模块使用比主模型更高的噪声水平。道理很简单:如果辅助模块输入的噪声很少,它几乎能"自己搞定"去噪任务,就不需要参考主模型学到的特征了。但如果噪声很高,辅助模块就必须大量借助主模型提取的特征,这样主模型才会真正被MCP任务的训练信号所影响,从而学到更好的表示。这个设计确保了MCP的训练信号能够深深地渗透进主模型,而不只是停留在辅助模块自身。

第三个关键设计是"多层特征融合"。在一个深度神经网络中,不同深度的层学到的东西是不一样的:浅层(靠近输入的层)通常学习边缘、颜色等基础视觉特征,深层(靠近输出的层)则学习更抽象的语义概念。主模型共有30层。研究团队发现,仅仅使用最后一层的输出来指导MCP模块是不够的,因为这样训练信号只能影响到深层,而浅层得不到有效监督。于是,他们从第4层、第12层、第20层和第30层分别提取特征,将这四组特征拼接在一起,通过一个小型神经网络(两层MLP)压缩成一个统一的表示,再送入MCP模块。这样,MCP模块的训练误差在反向传播时,会同时影响主模型的浅层和深层,实现全方位的深度监督。

四、推理加速:训练时的"副产品"变成了实用工具

Next Forcing还带来了一个出乎意料的好处:推理速度提升。

在正常的视频生成推理过程中,模型需要逐帧(逐块)生成视频:先生成第1块,再生成第2块,再生成第3块……每一步都需要完整的去噪过程,计算量很大。这就像一条流水线,每次只能向前走一步。

但有了MCP模块,情况就不同了。由于MCP模块在训练时就学会了"在主模型预测当前块的同时,预测下一块的内容",所以在推理时,可以让主模型预测当前块,同时让MCP模块预测下一块,二者并行运算。MCP模块的计算量远小于主模型(每个MCP模块只有3个Transformer层,而主模型有30个),所以加上MCP模块的额外计算开销几乎可以忽略不计。结果就是:每一步推理,视频向前推进了两块而不是一块,总推理速度提升了2倍。

这就像流水线改造:原来每次只能运出一批货,现在通过在装车的同时准备下一批,效率翻倍。

研究团队还提供了两种使用模式:如果用户更关注质量、不在乎速度,可以完全丢弃MCP模块,只使用主模型推理,效果和普通推理一样,但由于主模型在训练时受益于MCP的深度监督,其性能已经比普通训练的模型更好;如果用户更在乎速度,可以保留MCP模块,开启并行推理,2倍加速。两种模式使用同一个训练好的模型,无需重新训练。

五、实验验证:数字背后的故事

研究团队在多个任务上对Next Forcing进行了全面评测,结果从多个维度印证了这一方法的价值。

在RoboTwin机器人操控基准上,Next Forcing与多个对比方法进行了比较,包括X-VLA、π0、π0.5、Motus、Being-H0.7、Fast-WAM和LingBot-VA。固定场景测试结果依次为72.9%、65.9%、82.7%、88.7%、90.2%、91.9%、92.9%,而Next Forcing达到了94.1%;随机场景测试结果依次为72.8%、58.4%、76.8%、87.0%、89.6%、91.8%、91.5%,而Next Forcing达到了93.5%。

训练收敛速度的差异尤其显著。在12帧每秒的设置下,Next Forcing在训练1万步时就达到了90.0%的成功率,而LingBot-VA需要大约2万步才能达到同样水平,速度提升约2倍。到5万步收敛时,Next Forcing的最终成绩(94.1%/93.5%)也明显高于LingBot-VA(92.8%/91.8%)。在50帧每秒的设置下,差距更为悬殊。仅训练5000步时,Next Forcing在随机场景下就达到了61.6%,而LingBot-VA只有31.9%,差距高达29.7个百分点。Next Forcing在训练2万步时的效果,相当于LingBot-VA训练4.5万步的效果,训练效率提升了2.3倍。

研究团队还在一个名为PhyWorld的物理规律理解基准上进行了测试。这个基准专门评估视频生成模型是否真正理解物理世界的规律,比如匀速直线运动、弹性碰撞、抛体运动等。测试时去掉了机器人动作模块,只评估视频生成质量。Next Forcing在视频质量指标(FVD,越低越好)和"异常比例"(生成的视频违反物理规律的比例,越低越好)上都优于LingBot-VA。特别是在"模板外"测试(考察模型能否把学到的物理规律推广到训练时没见过的场景)中,差距更为明显,说明Next Forcing学到的是真正可迁移的物理规律,而不只是记住了特定的动画模板。

为了验证这一方法是否仅对机器人任务有效,研究团队还在一个包含约350万段普通视频(主要是人类活动场景)的数据集上进行了预训练实验。结果显示,在两个不同类型的测试集上,Next Forcing的视频质量指标在整个训练过程中始终大幅低于LingBot-VA。训练5万步时,Next Forcing在测试集1上的FVD为94,而LingBot-VA为225,降低了约58%;在测试集2上分别为97和204,降低了约52%。更引人注意的是,Next Forcing在训练1万步时的效果就已经超过了LingBot-VA训练5万步的效果,足见其训练效率的提升并非偶然,也不局限于机器人场景。

六、消融实验:每个设计的贡献都被仔细审查过

研究团队对Next Forcing中的每一个设计选择都进行了系统性的消融实验——就是逐一拆除某个组件,看看性能会下降多少,从而判断这个组件的贡献是否真实。所有消融实验均在RoboTwin固定场景子集上训练2万步后评估。

基础模型(LingBot-VA默认设置)的成功率为75.6%。单纯加入MCP之后,成功率跃升至85.8%,提升了10.2个百分点,这是最直接的证明。

在基础模型的设计选择方面,研究团队发现去掉"带噪历史增强"(一种让模型看到带噪声历史帧的训练技巧)会导致成功率从75.6%大幅下降到69.8%。这说明模型在训练时如果只看到干净的历史帧,很容易学会"直接从干净历史中抄答案"的取巧方式,而加入噪声历史才能迫使模型真正学习预测能力。主模型的噪声时间步偏移参数smain的影响也很显著:设为1时成功率只有65.3%,设为10时最高达78.4%,设为20、25时则分别为77.6%和77.2%,呈现出先升后降的规律,说明适中的噪声水平最有利于训练。

在MCP模块设计方面,将MCP的噪声时间步偏移smcp从10降低到5(与主模型相同),成功率从85.8%降至83.2%。这印证了"高噪声迫使MCP模块依赖主模型特征"的设计直觉。去掉多层特征融合,只用主模型最后一层的输出,成功率降至83.6%,说明让训练信号影响主模型各个深度的设计确实有效。不初始化MCP模块权重(从头随机初始化,而不是从主模型的最后几层复制权重),成功率降至83.8%。对于每个MCP模块的Transformer层数,1层的成功率最高(86.5%),3层次之(85.8%),5层更低(85.0%)。研究团队最终选择3层,原因是1层虽然成功率略高,但生成的视频会出现更多视觉伪影(画面瑕疵),在推理加速模式下影响用户体验。

七、与其他方法的关系:互补而非竞争

Next Forcing在理解中有一个容易混淆的地方:它和另外两个同类方法——扩散强迫(Diffusion Forcing)与自我强迫(Self Forcing)——有什么区别?

这三种方法都是针对自回归视频生成的训练策略改进,但关注的角度完全不同。扩散强迫关注的是"如何安排噪声":传统方法在训练时给每帧添加相同程度的噪声,而扩散强迫让每帧独立采样不同噪声水平,使得模型在训练时也能见到"部分帧清晰、部分帧模糊"的场景,从而缓解训练和推理时输入分布不一致的问题。自我强迫关注的是"用什么帧作为历史输入":传统教师强迫在训练时用真实帧作为历史,推理时却用自己生成的帧作为历史,存在分布偏差;自我强迫直接在训练时就用自己生成的帧作为历史,消除这种偏差。Next Forcing关注的则是"要求模型预测什么":不是改变噪声方案,也不是改变历史输入,而是扩大预测目标,从"预测当前帧"变成"同时预测多个未来帧"。

正因如此,Next Forcing与上述两种方法在技术上是完全正交的,可以自由组合。如果未来有研究者想把三者结合起来,理论上并无障碍。

说到底,Next Forcing做的事情其实可以用一句话概括:在原来"只考下一题"的训练模式上,额外加了"同时考后三题"的要求,让模型从只会做选择题变成真正理解题目背后的知识。这个思路的灵感来自大语言模型领域的"多Token预测"技术——在语言模型训练中,有研究者发现让模型同时预测未来多个词(而不是只预测下一个词),能显著提升训练效率和最终效果。Next Forcing是这一思想在视频世界模型领域的创造性移植,但这种移植并非简单的照搬,因为视频是连续信号而非离散符号,生成方式是迭代去噪而非一次性采样,时间依赖跨越多个尺度,每一个差异都需要专门的技术设计来处理。

归根结底,这项研究揭示了一个简单而深刻的道理:一个只被要求"看好眼前"的模型,永远不会主动学习"理解未来"。通过强制模型预测多个时间尺度的未来,不仅让训练更高效、效果更好,还顺带解决了推理速度慢的问题,并且在完全不同类型的视频数据上同样有效。这对整个视频AI领域来说是一个具有启发意义的方向——训练目标的设计,或许和模型架构、数据规模同样重要,值得更多关注。未来,机器人或许能更快地从视频数据中学会理解物理世界,而这一切的起点,只是简单地问它:除了下一步,你还能预测再后面几步吗?

Q&A

Q1:Next Forcing和普通视频AI训练方法有什么本质区别?

A:普通方法只让模型预测"下一帧"视频,导致模型学会"复制上一帧"的取巧方式,而不是真正理解物体运动规律。Next Forcing则强制模型同时预测未来三个时间段的视频内容,距离越远差异越大,模型必须真正学习物理动态才能预测准确,从而彻底杜绝了取巧行为。

Q2:Next Forcing的2倍推理加速是怎么实现的?

A:Next Forcing在训练时引入了轻量级辅助模块。推理时,主模型预测当前视频块,辅助模块同时并行预测下一块,由于辅助模块计算量很小(只有主模型的十分之一层数),几乎不增加延迟,却让每步推进两块视频,从而实现2倍加速。用户也可以选择不用辅助模块,只享受主模型因更好训练带来的质量提升。

Q3:Next Forcing为什么在高帧率视频上效果提升更明显?

A:帧率越高,相邻两帧画面越相似,"复制上一帧"的取巧方式越奏效,普通训练方法越难逼迫模型学习真正的动态规律。50fps时相邻帧几乎完全相同,普通方法收敛极慢。而多帧预测任务中,距离当前帧越远的未来帧差异越大,即使在50fps下也无法靠复制取巧,所以Next Forcing在高帧率场景下的提升最为显著,训练速度快了2.3倍。