群发资讯网

从稀疏到密集:阿里巴巴和华中科大团队如何让AI图像生成更聪明 - 科技行者

这是一篇由华中科技大学、阿里巴巴通义实验室联合发表于2026年国际学习表征大会(ICLR)的研究论文。论文编号为arXi

这是一篇由华中科技大学、阿里巴巴通义实验室联合发表于2026年国际学习表征大会(ICLR)的研究论文。论文编号为arXiv:2601.20218v1,主要研究人员来自华中科技大学的多光谱信息智能处理技术重点实验室和阿里巴巴的通义实验室。感兴趣的读者可以通过该编号查询并获取完整论文。

### 一、问题的出现:为什么AI图像生成总是不够理想

你有没有这样的经历:告诉AI一个要求,比如"画一张有红苹果和黄蛋糕的照片",结果AI生成的图片要么颜色不对,要么物体位置奇怪,或者干脆就是画不出文字?这不是AI的"想象力"不足,而是它在学习如何生成图像时,收到的"反馈信号"有了问题。

想象一下,你正在教一个孩子如何做蛋糕。整个烘焙过程分成很多步骤:混合面粉、打发黄油、调整温度、上色装饰等等。如果你在蛋糕最后才评价"这个蛋糕不好吃",孩子怎么知道是哪一步出了问题呢?是面粉的量不对,还是温度设置有问题,还是装饰方式不合适?他根本无法具体改进。这就是现在AI图像生成的困境。

现有的AI图像生成模型,比如Flow-GRPO和DanceGRPO,在使用强化学习调整自己的行为时,都犯了同一个错误。它们在生成完整图像的最后才给出一个"评分"——比如说这张图得了85分。然后它们把这个总体评分反向传递给整个生成过程中的每一个中间步骤,让每一步都认为自己贡献了85分的价值。这就像告诉老师,班级期末成绩是95分,那么从开学第一天的数学课到期末前最后一节英文课,每堂课都应该得95分——这显然是错的。

有些步骤可能贡献很大(比如确定了物体的大致形状),有些步骤贡献很小(比如微调了某个细节),用同样的评分来训练所有步骤,就像用一把通用尺子去衡量所有物体的长度一样——肯定会有严重的偏差。这就是论文中提到的"稀疏奖励问题"的本质。

### 二、解决方案的探索:给每一步一个准确的评分

阿里巴巴和华中科技大学的研究团队认识到了这个问题,他们开发了一个名叫"DenseGRPO"的新方法。核心思想很简单但很聪明:与其在最后给出一个总评分,不如给每一个中间步骤都打一个分,衡量这一步究竟贡献了多少。

这听起来很复杂,但实现起来却有一个巧妙之处。图像生成过程是这样的:模型从完全的噪声开始,一步步去除噪声,最终得到清晰的图像。这种去噪过程有一个独特的性质——它是完全可预测的。给定某个中间状态的图像,你可以通过一个称为ODE(常微分方程)的数学方法,直接推导出最终生成的完整清晰图像会是什么样子。这就像一场国际象棋比赛,如果知道了当前棋局,好的棋手可以预算出最终可能赢还是输。

研究团队正是利用了这一点。对于生成过程中的每一个中间步骤,他们使用ODE方法快速推导出"如果从这个中间状态继续完成去噪,最终会得到什么图像"。然后他们对这个推导出来的最终图像进行评分。这样,对于生成序列中的每一个状态,他们都有了一个实际的评分。接下来,他们计算相邻两个步骤之间的评分差异——这个差异就代表了当前这一步真正贡献的价值。

举个例子,如果第5步完成后的推导最终图像评分是85分,第6步完成后的推导最终图像评分是82分,那么第6步的实际贡献就是-3分(反而降低了质量)。这样就能准确反映每一步的真实效果了。与直接使用最终的85分或82分来训练所有步骤相比,这种方法使得训练信号与实际贡献匹配了。

### 三、还有隐藏的问题:探索空间的失衡

但是,研究团队在实现上述方法时,又发现了一个新的问题。他们在可视化这些密集的逐步评分时,注意到一个奇怪的现象:在生成过程的某些特定时刻,几乎所有的样本都得到了负分。这是什么意思呢?

在强化学习中,模型需要不断地尝试新的东西,通过犯错误来学习。为了支持这种"探索",Flow-GRPO在图像生成过程中故意加入了额外的随机性。没有这些随机性,模型就会一直重复已有的模式,永远无法改进。但现在有了一个新问题:这种随机性的注入量是固定的——无论生成过程的哪个阶段,都加入相同量的随机干扰。

这就像是在调整烤箱温度。在烤蛋糕的最初阶段,烤箱需要快速升温,此时温度波动几度没什么大问题。但到了最后的定色阶段,温度波动同样几度就可能毁掉整个蛋糕。生成图像的过程也是类似的:早期的步骤(处理大的结构)能容忍更多的随机干扰,而后期的步骤(处理细节)对干扰非常敏感。

用统一的随机干扰量,结果就是在某些步骤上干扰太少(不足以探索新的、更好的生成方式),在其他步骤上干扰太多(导致生成完全错误的内容)。这正好解释了为什么在某些时刻所有样本都得到负分——是因为加入的随机干扰太多,让模型偏离了正确的生成路径。

### 四、精细化的调整:时间感知的随机性注入

研究团队提出了一个解决方案:不再使用固定的随机性注入量,而是根据每个生成步骤的实际情况来动态调整。他们开发了一个算法来自动找到最佳的调整方案。

这个算法的工作方式很直观。首先,团队采样生成大量的图像,计算每个步骤的密集评分,看看在当前的随机性设置下,有多少样本得到了正分(好的结果),有多少得到了负分(坏的结果)。然后,对于每个生成步骤,他们检查正负样本的平衡情况。如果某个步骤的结果非常不平衡(比如全是负分),这说明现在的随机性设置不合适——可能干扰太多了。他们就稍微降低这个步骤的随机性。反过来,如果某个步骤的结果平衡但多样性不足,他们就稍微增加随机性。通过多次迭代这个过程,他们找到了每个步骤理想的随机性水平。

这好比一个导师在教学中的方式:对于基础较差的学生,给予较多的指导和约束(降低随机性),帮助他们沿着正确的路径前进;对于进度很快的学生,给予更多的自由度(提高随机性),让他们探索不同的解题方法。结果是每个学生都得到了最适合他们的学习环境。

### 五、实验证明:改进真的有效吗

研究团队在三个不同的任务上测试了他们的方法:构图图像生成(考验物体位置和数量是否正确)、视觉文字渲染(考验AI是否能准确地在图像中生成文字)、以及人类偏好对齐(考验生成的图像是否符合人类审美)。

在所有三个任务上,DenseGRPO都明显超越了之前最好的方法Flow-GRPO。特别是在人类偏好对齐的任务中,DenseGRPO使用PickScore评估时得分为24.64,而Flow-GRPO只有23.31。这看似是一个小的数字差异,但这相当于在10000张图片的评估中,DenseGRPO超越Flow-GRPO约1330张。这不是可以忽视的小改进。

为了确保这种改进不是巧合,研究团队进行了详细的对比实验。他们测试了用旧方法(只在最后给一个总评分)会怎样,结果确实比DenseGRPO差。他们测试了固定的随机性注入(不做动态调整)会怎样,结果也比使用动态调整的DenseGRPO差。这些对比实验证实了他们提出的两个主要改进——密集评分和时间感知的随机性注入——都确实有效果。

在关于计算成本的问题上,研究团队采用的方法需要在每个步骤用ODE方法推导最终的图像,这增加了计算量。但有趣的是,即使计算成本增加了,DenseGRPO仍然能在相同的训练时间内产生更好的结果。这意味着这种方法不仅更有效,而且成本效率也很高。

### 六、质量检验:会不会是"耍小聪明"

一个自然的问题是:DenseGRPO是否通过某种方式"作弊"了?比如说,它是否在某个特定的评分指标上表现好,但在其他指标上反而变差了?

研究团队使用了四种不同的评分方法来评估他们的结果:美学得分(图像看起来是否漂亮)、DeQA得分(评估图像细节质量)、ImageReward和UnifiedReward(两种不同的偏好预测模型)。结果显示,DenseGRPO不仅在主要指标上表现优异,在这些额外指标上也都保持了良好或更优的表现。这说明改进不是来自于某种局部最优化,而是真正的全面提升。

不过,研究团队也诚实地指出了一个小问题:在某些情况下,当为了特定任务而训练时(比如提高文字识别准确度),DenseGRPO会更加专注于这个目标,有时可能在其他方面(如整体图像质量)上有轻微的权衡。这是一个已知的强化学习现象——模型对奖励的追求可能会过度专注——但这种情况远比之前的方法要温和。

### 七、广泛的适用性:这个方法能用在别的地方吗

有趣的是,DenseGRPO虽然主要针对流匹配模型(现代图像生成的最新技术),但它的核心思想其实更通用。研究团队测试了在更早的扩散模型(如Stable Diffusion 1.5)上应用这个方法,结果仍然有效。这说明这个思路不是针对特定技术的技巧,而是对图像生成过程的一个更深层的认知。

他们还测试了在更高分辨率(1024×1024像素,而不是标准的512×512)上的表现,DenseGRPO仍然保持了优势。甚至在最新的大模型FLUX.1-dev上,这个方法也显示出了明显的改进。这些结果表明,DenseGRPO抓住的是图像生成过程的一个根本问题,而不是针对某个特定配置的补丁。

### 八、对未来的启示

这项研究带来了两个重要的启示。首先,在训练生成模型时,反馈信号的精度非常关键。模糊、笼统的反馈(就像"这个总体不错")不如具体、准确的反馈("这一步特别好")有效。这不仅适用于图像生成,也适用于其他需要序列决策的学习任务。

其次,人们往往会设计一个"平均"的配置(比如固定的随机性参数),希望它对所有情况都有效。但实际上,不同的步骤或不同的阶段需要不同的处理方式。一个看似小的动态调整——让参数根据实际情况变化——可以带来显著的改进。这在很多领域都可能有应用价值。

无论是从学术的角度还是实用的角度,DenseGRPO都代表了一个稳实的进步。它不是一个革命性的想法,而是对现有方法的一个聪明的改进——但有时候,这样的改进就足以打开局面。研究背后的直觉很清晰:给你的学生更准确的反馈,每个学生更适合他们的学习节奏,他们就会学得更好。对AI来说,道理是一样的。

---

Q&A

Q1:为什么现在的AI图像生成方法用的"奖励评分"不准确?

A:现有方法在生成完整图像后才给出一个总体评分,然后把这个总分平均分配给生成过程中的所有中间步骤。这就像在蛋糕烤完后说"蛋糕不错",但学生不知道是混面粉的时候做对了,还是上色的时候做对了。每一步的实际贡献是不同的,用同一个评分训练所有步骤,信号就会严重扭曲。

Q2:DenseGRPO用什么办法给每个生成步骤打分?

A:它使用ODE数学方法,根据任意一个中间状态快速推导出最终会生成什么样的完整清晰图像,然后对这个推导的最终结果评分。通过比较相邻步骤的评分差异,就能精确衡量每一步的真实贡献,这样训练信号就准确多了。

Q3:为什么需要根据生成步骤动态调整随机性注入量?

A:图像生成过程的不同阶段需要不同程度的探索。早期步骤处理大结构,可以容忍更多随机性;后期步骤处理细节,随机性太大就会毁掉结果。固定的随机性设置会导致某些步骤干扰太多或太少,动态调整能让每个步骤都获得最适合的探索环境。