群发资讯网

浙大让AI视频"记住过去"——记忆系统和人脑的遗忘曲线惊人相似

这项由浙江大学、新南威尔士大学(UNSW)、Data61/CSIRO和百度联合完成的研究,以预印本形式发布于2026年6

这项由浙江大学、新南威尔士大学(UNSW)、Data61/CSIRO和百度联合完成的研究,以预印本形式发布于2026年6月9日,论文编号为arXiv:2606.10671,题为《FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion》。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

如果你曾经用AI工具生成过一段视频,你大概会注意到一个令人抓狂的问题:视频开头出现的那只猫,没过几秒钟就悄悄变了个模样,颜色变了,耳朵形状变了,甚至在某些片段里直接消失了。这不是AI在"发挥创意",而是一个深层的技术缺陷——AI在生成后续画面时,已经"忘记"了最开始画的那只猫长什么样。

这个问题在生成短视频时还勉强可以接受,但当我们想让AI生成一分钟乃至更长的视频时,这种"失忆症"就变成了灾难性的隐患。这正是浙大团队试图解决的核心问题,他们的解决方案叫做FadeMem,一个让AI拥有"分层记忆"的机制,而这套机制的灵感来源,恰恰和人类大脑处理记忆的方式惊人地相似。

一、为什么AI生成长视频时会"失忆"

要理解这个问题,先来看看现代AI视频生成器是怎么工作的。目前最先进的视频生成AI并不是一口气把整段视频都"想好"再输出,而是像讲故事一样一段一段地生成,每生成一小段新内容时,都要回头看看之前已经生成了什么,以此保持连贯性。这种方式叫做"自回归生成",可以类比为一个人在接力写小说——每位接棒的作者都要先读一读前面的章节,才能保证故事不跑偏。

在技术层面,这种"回头看"的操作是通过一个叫做KV缓存的机制实现的。K代表Key(键),V代表Value(值),你可以把它理解成一本储存过去画面"印象摘要"的记事本。每生成一帧新画面,AI都会往这本记事本里翻一翻,确认主角的脸型、场景的色调、运动的方向,然后再画下一帧。

问题在于,随着视频越来越长,这本记事本会变得越来越厚。存储和查阅的成本呈线性增长,很快就会超出计算机的处理能力。这就像让一个人在写第100章小说时,强迫他把前99章全部倒背如流——任何人都会崩溃。

现有的解决方案大致分为三类。第一类是"滑动窗口":只记住最近几帧,更远的全部丢弃,相当于那位接棒作者只读最后一页就开始写;第二类是"保留开头":永久保留最开始几帧作为"锚点",防止主角整体跑偏;第三类是"压缩记忆":把遥远的历史帧压缩成几个关键词式的摘要状态,塞进缓存里。这些方法各有侧重,但都存在一个根本性的局限:它们对记忆的处理方式是固定的、机械的,不会根据内容距离当前时刻的远近来灵活调整记忆的精细程度。

二、人类的遗忘曲线给了研究者一个关键启发

在着手设计解决方案之前,浙大团队先做了一件很有意思的事:他们系统分析了长视频中帧与帧之间的相关性是如何随时间衰减的。

具体来说,他们把每一帧视频编码成一个抽象的数学表示,然后把这个表示分解成不同的"频率成分"。低频成分对应画面中大范围的整体信息,比如场景的整体布局、主角的轮廓形状、画面的整体色调;高频成分则对应细节信息,比如毛发的纹理、衣服上的褶皱、水面的微小涟漪。

分析结果清晰地揭示了一个规律:帧与帧之间的相关性会随时间距离增大而下降,但下降速度在不同频率成分之间存在显著差异。高频细节衰减得极快,两帧之间只要隔了一段时间,细节上的相关性就已经微乎其微;而低频的整体结构衰减得很慢,即便是相隔很远的帧,在场景布局和主角身份这类大轮廓信息上,仍然保有相当程度的相关性。

更有意思的是,研究团队进一步分析了"稳定频率半径"随时间距离的变化趋势——也就是说,在某个给定的时间距离下,哪些频率成分仍然保持稳定相关。结果发现,这个稳定频率半径随时间距离增大而收缩,并且收缩的方式大致遵循一个幂律关系,用公式表示就是r*(t) ∝ t^(-b),其中b是一个控制衰减速度的参数。

这个发现和人类记忆中著名的遗忘曲线异曲同工。我们对昨天发生的事情记得很清楚,包括细节;对一年前某天发生的事情,细节已经模糊,但大事件的轮廓还在;对十年前的记忆,大多只剩下关键节点和整体印象。不同的是,人脑的遗忘是被动发生的,而FadeMem要做的是主动管理这种分层遗忘——把有限的记忆空间,按照"越近越细、越远越粗"的原则合理分配。

由此得出的设计哲学相当直观:既然远处的历史帧只需要保留粗粒度的结构信息,那我们就没必要为它们保留完整的精细记录;而近处的历史帧对当前生成至关重要,需要保留尽可能丰富的细节。这个原则,就是FadeMem全部设计的出发点。

三、FadeMem是如何组织这本"记忆账本"的

FadeMem的核心思路可以用一个图书馆的比喻来理解。假设一个图书馆的书架空间是固定的(对应固定的缓存预算M),需要存放不断涌入的新书(对应每个时刻新生成的视频帧的KV数据)。对于刚入库的新书,管理员给每本书单独分配一个书架格子,保留完整内容;而对于入库已久的旧书,管理员会把内容相近的几本书合并成一本精华摘要,腾出书架空间给新书。整个书架上的内容,从右侧(最近入库)到左侧(最早入库)呈现出从"精细"到"粗略"的梯度变化。

在技术实现上,FadeMem把缓存中的每一条记忆称为一个"条目"。每个条目不仅存储了KV数据本身,还携带两个轻量级的元数据:一个是这个条目所代表的时间位置(用μ表示),另一个是这个条目总共覆盖了多少个生成单元(用s表示)。新插入的条目s=1,意味着它代表一个精确的历史时刻;经过合并的条目s会增大,意味着它是对一段历史区间的综合摘要。

每当AI生成了新的一帧或一组帧,FadeMem首先把对应的KV数据作为新条目追加进来。此时如果条目总数超过了预设的上限M(论文默认使用12个历史条目),FadeMem就会触发一次合并操作,为下一轮生成腾出空间。

合并操作的选择策略是整个机制的精髓所在:FadeMem不是随机合并,也不是简单地丢弃最旧的那个,而是通过一个幂律变换来衡量相邻条目之间的"感知距离",然后合并感知距离最小的那一对相邻条目。

具体来说,对于每个条目,先计算它离当前生成时刻的实际时间距离d,然后把这个距离做一个幂律变换:u(d) = d^β,其中β是一个介于0到1之间的控制参数。这个变换把时间轴"扭曲"了——在扭曲后的空间里,近处的条目之间显得间距很大(不容易被合并),远处的条目之间显得间距很小(容易被合并)。算法选择在扭曲后空间里间距最小的那对相邻条目进行合并,自然而然地就实现了"优先合并遥远的历史、保留近处历史的精细度"这一目标。

两个条目合并时,生成的新条目的时间位置μ_new取两者时间位置的跨度加权平均,新条目的KV数据也取两者KV数据的跨度加权平均。跨度s_new等于两者跨度之和,记录这个摘要条目覆盖的历史长度。整个合并过程是在线进行的,每一步生成只需做一次合并操作,计算成本极低。

此外,FadeMem还设置了两个边界保护规则:最新生成的条目不会被立即合并,确保最新鲜的历史信息至少存活一个生成步骤;最早生成的第一帧条目默认受到保护,作为"全局锚点"始终留在缓存里,防止视频的整体身份和场景在漫长的生成过程中完全漂移。这两条规则并不需要额外的机制,它们都在同一个有序的记忆结构里自然实现。

对于使用旋转位置编码(RoPE)的模型,FadeMem还做了特别处理:存储时先去掉KV数据中已编码的位置信息,使用时再根据条目的代表时间位置重新编码。这样做是因为如果把两个不同时间位置的KV数据直接平均,位置信息会互相干扰产生混乱;解耦存储和位置编码则保证了合并后的条目在被模型使用时仍然具有正确的时序信息。

四、实验结果:FadeMem真的让视频"记性更好"了吗

研究团队在Wan2.1-T2V-1.3B这个视频生成模型上实现了FadeMem,并在LongLive自回归视频生成框架上进行评测。评测任务是生成60秒长度的视频,分辨率480×832,帧率16FPS,使用MovieGenBench基准测试集中的128个提示词。评测指标采用VBench-Long体系,涵盖主体一致性、背景一致性、运动流畅度、动态程度、美学质量和画质六个维度,并额外使用谷歌Gemini 3.1-Pro大模型进行视觉稳定性的主观评分。

研究团队报告了两个变体。FadeMem-TF是纯推理时版本,不需要对模型做任何额外训练,直接替换原有的缓存管理方式。FadeMem-FT则在FadeMem-TF的基础上进行了轻量级微调,让模型在训练阶段就习惯了分层记忆的访问模式。

在所有基线方法中,Self Forcing的整体平均分为78.64,LongLive为80.55,MemFlow为80.59,Deep Forcing为79.44,MemRoPE为80.39。FadeMem-TF在不进行任何额外训练的情况下达到了80.45的平均分,在主体一致性(97.74)、背景一致性(96.43)和运动流畅度(98.93)三项指标上达到或并列当前最优水平。加入轻量微调后,FadeMem-FT的平均分进一步提升至81.03,在主体一致性(97.77)、背景一致性(96.56)、画质(70.72)和总体平均四项指标上均居所有方法之首。

在Gemini 3.1-Pro的主观视觉稳定性评分上,FadeMem同样以4.84的得分高于MemRoPE的4.80、MemFlow的4.77、LongLive的4.74和Deep Forcing的4.51,取得所有方法中的最高稳定性分数。

定性对比的结果也相当直观。研究团队使用了一个特意设计的挑战性提示词:"一道闪电击中湖中央的一只乌龟,把它立刻变成了一只鳄鱼。"这个提示词的难度在于,主体的外观在视频早期就发生了一次根本性的变化,后续漫长的生成过程需要一直记住"现在它是鳄鱼,不是乌龟"这个已确立的事实。

在LongLive和MemFlow生成的视频中,随着视频进入40秒、50秒阶段,乌龟的特征开始重新出现在主体身上,变身的效果逐渐被"覆盖"。在Deep Forcing和MemRoPE生成的视频中,鳄鱼的整体身份得到维持,但细节逐渐模糊。FadeMem生成的版本则在整个60秒内持续维持了变身后的鳄鱼身份,同时在水面反光、风暴场景的整体氛围等细节上也保持了更高的一致性和真实感。

五、细节决定成败:三个设计选择的消融实验

为了验证FadeMem中每个设计选择的价值,研究团队进行了系统性的消融实验,逐一测试不同的幂律指数β、不同的合并算子以及是否保留第一帧全局锚点的效果。

关于幂律指数β,研究团队测试了从0.1到0.9五个取值。随着β增大,动态程度和整体平均分有所提升,但主体一致性和背景一致性有所下降。β=0.9时整体加权平均最高(80.65),但在定性观察中发现视觉轨迹的稳定性和身份保留效果更差,说明自动指标并未完全捕捉到视频质量的所有维度。研究团队综合考量后选择β=0.3作为默认值,因为它在主体一致性和背景稳定性上的表现最优,最符合"生成长视频时保持身份和场景稳定"的核心目标。

关于合并算子,研究团队比较了四种方式:选择距离最近的单个条目(Select Nearest,即丢弃另一个)、简单等权平均(Average)、跨度加权平均(Weighted Average)以及逐元素最大值(Max Pooling)。Max Pooling的表现最差,动态程度仅有10.47,画质也严重下降,说明对KV数据做逐元素取最大值会严重破坏信号结构。Select Nearest在主体一致性上略占优,但动态程度和画质明显低于平均类方法,说明直接丢弃一个历史条目会损失有效的历史信息。简单平均和加权平均表现接近,加权平均以微弱优势胜出,因此作为默认选择。

关于第一帧全局锚点,去掉它之后,主体一致性(98.01)和背景一致性(96.74)以及运动流畅度(99.01)反而略有提升,但动态程度从39.09骤降至28.88。这说明,没有第一帧锚点时模型生成的视频在运动上变得过于保守,动态变化减少——模型为了维持一致性,干脆减少了动态内容。保留第一帧锚点在提供全局参照的同时,也为模型提供了生成丰富运动内容的"底气",两者之间取得了更好的平衡。

说到底,FadeMem做的事情其实可以用一句话概括:按照"越旧越概括,越新越精细"的原则,在固定大小的记忆账本里,把有限的记忆空间分配给最值得精细记忆的内容。这个思路既有严密的理论依据(视频频率相关性的幂律衰减),又有简洁的工程实现(单一有序的合并机制),不需要为"近期记忆"和"远期记忆"分别维护两套独立的系统,也不需要修改模型架构。

这对普通用户而言意味着什么?当你用AI生成一分钟的视频,要求主角在开头做出某个动作或外貌变化,并希望这个变化在视频结尾仍然清晰可辨时,FadeMem这类机制让这件事在计算资源固定的条件下变得更加可靠。当然,这项研究也坦诚地指出了自身的局限:FadeMem的记忆分配策略是预设固定的,对于包含突然场景切换或高速运动的视频,固定的幂律分配可能并不是最优方案,未来可以探索内容自适应的动态分配策略。此外,FadeMem处理的是缓存的组织方式,无法弥补底层生成模型本身在语义理解或物理常识上的先天不足。

归根结底,长视频生成的连贯性问题不只是"存多少历史"的问题,更是"如何存历史"的问题。FadeMem给出的这个答案——用衰减式的分辨率梯度管理有限的记忆空间——为这个方向提供了一个值得继续深入探索的思路。有兴趣深入研究这一课题的读者,可以通过arXiv编号2606.10671查阅完整论文和技术细节。

Q&A

Q1:FadeMem和普通滑动窗口缓存有什么本质区别?

A:普通滑动窗口只保留最近几帧,更早的全部丢弃,相当于记忆里只有昨天,前天以前一律抹去。FadeMem则是把遥远的历史"压缩"而非"删除",遥远的帧会被合并成粗略的摘要条目,仍然占据缓存里的一个席位,只是精细程度降低了。这样AI既能记住最近帧的细节,也能保留很早之前确立的主体身份和场景信息,两者都不完全丢失。

Q2:FadeMem需要重新训练视频生成模型吗?

A:不需要重新训练也能使用。论文提供了两个版本,FadeMem-TF是纯推理时版本,直接替换原有的缓存管理策略,不做任何模型训练;FadeMem-FT则是在此基础上做了轻量级微调,让模型更好地适应分层记忆的访问模式,效果略优于纯推理版本。对于已有的视频生成系统,只需替换缓存管理模块即可使用,无需修改模型架构。

Q3:幂律指数β设置多少比较合适,普通用户能自己调吗?

A:论文推荐默认使用β=0.3,这个值在身份一致性和背景稳定性上表现最好,最适合需要长期保持主体外观和场景连贯的应用场景。β越大,对远处历史的压缩越弱,动态度略有提升但稳定性下降;β越小,近处记忆保留越密集,远处历史被更激进地合并。如果生成的视频场景变化多、动作幅度大,可以适当尝试更高的β值。