
这项由德国慕尼黑大学语言与信息处理中心(CIS LMU)联合慕尼黑机器学习中心(MCML)开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.09548v1,有兴趣深入了解的读者可以通过该编号查阅完整原文。
**一个被忽视的不公平**
如果你用中文或英文向一个顶尖AI模型提问数学题,它很可能对答如流。但如果换成斯瓦希里语、约鲁巴语或阿姆哈拉语呢?同样的模型、同样的题目,答对率可能骤降至个位数。这不是因为这些语言的使用者更笨,而是因为这些语言在AI的"成长教材"里几乎缺席——它们被称为"低资源语言",意思是互联网上用这些语言写成的高质量文本少得可怜,模型在训练阶段几乎没有机会接触它们。
这种不平等在全球17亿非洲语言使用者身上体现得尤为明显。随着大型语言模型(可以理解为能够阅读、思考和回答问题的超级AI程序)在教育、医疗、科研领域扮演越来越重要的角色,如果这些工具只为少数语言服务,那对其余语言的使用者而言就是一场系统性的排斥。
慕尼黑大学的研究团队注意到了这个问题,并着手寻找解决之道。他们的核心发现颇为出人意料:这些AI模型其实已经具备解决数学题的潜在能力,只是当题目用低资源语言呈现时,它无法"激活"这种能力。问题不在于模型不会做题,而在于它不知道如何用那种语言做题。
**一、为什么现有方法都不够好**
在讲研究团队的解决方案之前,有必要先理解他们面对的是一个多么棘手的处境,以及此前已有的尝试为何都存在明显缺陷。
最直觉的想法是:既然模型会用英语解题,那就把所有解题步骤翻译成目标语言,再用这些翻译内容来训练模型。这就像给一位只会英语的家教准备了一份用斯瓦希里语写成的教案,然后让他照着教。问题在于,机器翻译本身并不完美,尤其面对数学题时,分数、符号、逻辑关系极容易在翻译中出错或产生歧义。更糟糕的是,这些翻译出来的解题步骤并非模型自己"想"出来的,它的思维方式和这些外来内容之间存在根本性的错位——就像让一个习惯从左向右写字的人,突然去读从右向左的镜像文字,即使内容一样,阅读体验也会大打折扣。
另一种尝试是强化学习:给模型出题,答对了就奖励,答错了不管。这听起来像一种公平的训练方式,但在低资源语言场景下会遭遇一个致命困境。当模型答对率极低时,这种"答对才有奖励"的机制几乎等于什么信息都没有提供。绝大多数时候模型得到的反馈是沉默,它根本不知道自己哪里做错了,应该怎样改进。这就好比教一个孩子学游泳,每次他快要学会某个动作时你只说"不对",从不解释为什么,也不示范正确姿势——进步会极其缓慢,甚至产生挫败感而放弃。
这两条路都走不通,研究团队意识到,他们需要一种既能提供密集反馈(不只是"对"或"错"),又能与模型自身思维方式保持一致的训练信号。
**二、用模型本身来教模型自己**
研究团队提出的解决方案有一个绕口但精准的名字:跨语言在线策略自蒸馏,英文缩写为COPSD。理解这个方法最好的方式,是把它想象成一个人同时扮演两个角色——一个是"闭卷考生",一个是"开卷考官"。
关键在于,考生和考官其实是同一个AI模型,只是给它们看的信息不一样。考生只能看到用低资源语言写的数学题,就像真实使用场景中的情形;考官则额外能看到这道题的英文版本,以及英文参考答案。两者用的是同一个大脑,但考官因为有了额外的英文参照,能更准确地知道每一步该怎么想。
训练过程是这样运作的:先让"闭卷考生"自己尝试作答,生成一套完整的解题过程。接着,"开卷考官"也审视这套解题过程,并在每一个推理步骤上给出自己认为更好的概率分布——也就是说,在考生写下某个词之后,考官会告诉它"在这个位置,下一个词应该有多大概率选择哪个选项"。训练的目标就是让考生的每一步选择都尽可能接近考官的判断。
这种逐词反馈的方式与之前"只看最终答案"的做法形成了鲜明对比。用一个比方来说:如果考生的解题过程有20步,强化学习只会在最后告诉它"错了";而COPSD会在每一步都轻声提示"这里可以更好"。密集的反馈让学习效率成倍提升,这就是"蒸馏"这个词的来源——就像蒸馏酒精,把有价值的成分一点点提纯出来,而不是等到最后才开盖子看结果。
"在线策略"这个词则意味着,训练时用的解题过程始终来自考生自己的真实尝试,而非从其他地方搬来的"模范答案"。这确保了模型学到的技巧,是真正能在实际回答时用上的东西,而不是表演给外人看的花架子。
**三、让模型专注于用目标语言思考**
大型语言模型有一个有趣的习惯:即便你用约鲁巴语问它问题,它在"脑子里"思考时仍然可能偷偷切换回英语,最后再把答案翻译回来。这种"语言漂移"现象在之前的研究中已有记录,它会让我们很难判断模型究竟是真的在用那种语言推理,还是只是在表演。
研究团队为此设计了一套"语言锁定"策略。他们为每种目标语言单独准备了一条开场白,紧跟在模型开始思考的标志(``标签)之后插入。以斯瓦希里语为例,这条开场白的意思是"按照要求,我将开始用斯瓦希里语思考"。这个短短的句子起到了锚点的作用,帮助模型把整个推理过程都维持在目标语言中。
这种方法在圈内被戏称为"提示词破解"(prompt hacking),听起来有些调皮,但背后是严肃的工程逻辑:通过精心设计的输入,引导模型产生我们期望的行为模式。为了让这个策略对17种不同的非洲语言都有效,研究团队为每种语言单独撰写了语言特定的开场白,这些开场白用该语言本身书写,真正从语言内部发出"继续用我说话"的信号。
另外,每道题目的末尾也附有该语言的作答指示,要求模型分步推理,并将最终答案放在特定格式的括号内(`\boxed{}`)。这个格式要求看似细节,却在后续分析中展现出重要价值——关于这一点,我们很快就会讲到。
**四、实验设置:17种语言,三种模型规模**
为了全面检验COPSD的效果,研究团队做了一套相当扎实的实验。
训练数据来自一个名为OpenThoughts的英文数学推理数据集,研究团队从中抽取了500道题,并用谷歌的Gemini-3-Flash模型将这些题目翻译成17种非洲语言(覆盖班图语系、闪族语系、库希特语系等多个语言家族,以及拉丁字母、埃塞俄比亚字母、瓦伊字母等多种书写系统)。英文题目和英文参考答案作为"教官版"信息,供教师策略使用;翻译后的题目则作为"考生版"输入。
测试的AI模型选用了Qwen3系列,分别测试了1.7亿、40亿和80亿参数三种规模(参数数量可以粗略理解为模型"神经元"的数量,越多通常能力越强)。这三种模型都已经经过大量高资源语言数据的预训练,具备良好的英文推理能力,但在非洲语言上的表现参差不齐。
评估使用的基准测试叫做AfriMGSM,这是一套由人工翻译(而非机器翻译)的数学题集,覆盖上述17种非洲语言,每种语言各有250道题。评估指标采用pass@12:对每道题生成12个答案,只要其中至少一个正确就算通过。这种评估方式比只看单次正确率更宽容,更适合反映模型的真实能力上限。
对比的基准有两个:一个是原始的Qwen3模型(没有经过任何额外训练),另一个是用GRPO方法训练的版本(GRPO是一种基于最终答案对错来给奖励的强化学习方法,代表了当前主流的推理增强路线)。
**五、数字说话:COPSD的提升有多大**
结果相当清晰,尤其对最小的1.7B模型而言,提升幅度令人印象深刻。
在17种低资源非洲语言的平均pass@12得分上,1.7B规模的原始模型得了9.11分,GRPO训练后几乎原地踏步,只涨到9.18分——这个差距小到几乎可以忽略。而经过COPSD训练后,同一模型的得分跃升至15.53分,相对提升超过70%。几乎每一种语言都有改善,覆盖了从班图语到闪米特语、从拉丁字母到埃塞俄比亚字母的广泛范围,说明这种提升并不依赖于某种特定的语言结构。
40亿参数的模型从19.20分提升到20.61分,绝对提升幅度较小,但这部分原因是更大的模型基准性能本就更高,提升空间相对有限。80亿参数的模型则从19.41分提升到23.55分,绝对提升约4分,相对提升约21%。
GRPO的表现则耐人寻味。在某些语言上,GRPO训练反而让模型的得分低于原始版本,印证了研究团队之前的判断:当模型很少能给出正确答案时,纯粹依赖"答对才奖励"的机制会陷入恶性循环。模型大部分时间得不到有效反馈,更新方向混乱,甚至在某些语言上走向倒退。
**六、格式遵从度:被忽视的关键因素**
在分析训练过程中,研究团队注意到一个有趣的现象:模型的pass@12得分与它是否能正确把答案写进`\boxed{}`括号之间,存在强烈的正相关关系。
这个指标被称为"格式遵从率",听起来像是细枝末节的形式要求,实则反映了更深层的问题。如果一个模型连"把答案放进括号"这么简单的指令都无法稳定执行,往往意味着它的推理过程本身就是混乱的——它要么在生成无意义的重复内容,要么在低资源语言中迷失了方向,找不到正确的落笔位置。
研究团队计算了训练过程中格式遵从率与pass@12的皮尔逊相关系数,在1.7B模型上达到0.628,4B模型上高达0.838,8B模型上为0.728。这些数字告诉我们,一个模型越能稳定地遵守格式要求,它就越有可能真正解对题目。COPSD在提升答题正确率的同时,也显著提升了格式遵从率,而GRPO在这方面几乎毫无改善。
换句话说,COPSD不仅让模型"想得更对",也让模型"表达得更清晰",这两者是相辅相成的。
**七、训练动态:快速收效,也有饱和风险**
研究团队还仔细记录了训练过程中模型表现随步数变化的曲线,这些曲线揭示了COPSD的一个典型规律:效果来得快,但持续性有限。
对1.7B模型而言,训练曲线呈现出平稳上升然后趋于平稳的态势,整个训练过程中性能持续高于原始基准。对4B和8B模型而言,最好的表现往往出现在训练开始后的前几步,随后出现轻微下滑。研究团队分析认为,这是因为模型能够迅速吸收教师策略提供的密集信号,但如果模型在目标语言上的生成能力本身就比较有限,那么教师给出的"建议"随着训练深入可能开始出现质量下滑,继续跟随反而会造成轻微损害。
这是一个重要的工程细节:在实际应用中,研究团队为每种语言和模型规模分别选择了在1024词元预算下表现最好的检查点,而不是一刀切地选择最终模型。这种谨慎的做法确保了最终报告的数字是真正最优的。
与此形成对比的是GRPO的训练曲线:无论pass@12还是格式遵从率,都基本是一条平线,看不到任何明显的上升趋势,偶尔的波动更像是随机噪声而非真实学习。这与其在最终表现上的平庸一脉相承,进一步证实了稀疏奖励在低资源场景下的根本局限。
**八、推理长度与性能的微妙关系**
AI模型在回答问题时,如果允许它"多想一会儿"——也就是生成更长的推理过程——通常能给出更好的答案。这被称为"测试时计算扩展",可以理解为给考生更多草稿纸。研究团队在三种生成预算(1024、2048、4096个词元)下分别测试了所有模型,结果呈现出清晰的规律。
对于更大规模的模型,这种扩展效果更为显著且稳定。8B规模的原始模型在1024词元预算下平均得分为14.73,而在4096词元预算下提升到19.41;COPSD训练后的8B模型则从18.12提升到23.55,相对提升幅度达到30.0%,高于同等条件下GRPO的13.8%。
以祖鲁语为例,这种差距最为突出:在4096词元预算下,COPSD训练的8B模型达到约28%的pass@12,而原始模型和GRPO训练模型都停留在约16%左右。这意味着COPSD不仅提升了模型的"单次最优表现",更实质性地改善了模型利用额外计算资源的能力——给它更多思考空间,它能做出更好的利用。
对于最小的1.7B模型,这种扩展效果则不那么稳定,有些语言在从2048增加到4096词元时甚至出现了轻微下滑,而GRPO训练版本在2048词元预算下还出现了负增长(相比1024词元预算反而下降14.2%)。这印证了一个在该领域逐渐形成的共识:有效利用更长的推理轨迹需要足够的模型容量支撑。
**九、少重复,更清晰**
研究团队还检测了一个经常在低资源语言推理中出现的问题:模型进入重复循环。用白话说,就是模型在用某种小众语言回答问题时,有时会像卡带一样不断重复相同的短语或句子,而不是真正在推进解题过程。
为了量化这种现象,研究团队定义了一个"重复率"指标:计算生成文本中重复出现的连续词组(n-gram)的比例。这个指标越高,说明模型越容易陷入重复循环;越低,说明生成内容越多样、越流畅。
COPSD训练后的模型在2-gram到6-gram的所有粒度上,重复率都持续低于原始模型和GRPO训练版本,而且这个优势从训练初期就能观察到,并在整个训练过程中保持稳定。低重复率不只是意味着文字更多样,更意味着模型在低资源语言中的推理过程更加连贯,不容易陷入无意义的循环,这与整体答题正确率的提升是相互印证的。
**十、走向更难的题目,走向更多的语言**
AfriMGSM的题目相对基础,属于中学数学难度。研究团队进一步在一个更具挑战性的多语言数学基准(PolyMath)上测试了COPSD的效果,该基准包含难、中、简三个难度级别,研究团队选取了8种不同资源丰度的语言进行测试:低资源的斯瓦希里语(非洲东部)和泰卢固语(南亚),中高资源的泰语、俄语、孟加拉语、日语、中文和西班牙语。
结果验证了一个重要的规律:COPSD的收益与语言的资源匮乏程度成正比。对斯瓦希里语,在中等难度题目上,COPSD相比原始模型提升了32.0个百分点;泰卢固语则提升了32.8个百分点;孟加拉语提升了15.2个百分点。而日语、中文、俄语、西班牙语等高资源语言的提升幅度则相对有限,通常在个位数左右。
这个规律告诉我们:COPSD的本质是帮助模型打通一条从"会用英语解题"到"会用目标语言解题"的传输通道。对于模型已经有足够训练数据的语言(如中文、日语),这条通道本就比较畅通,额外的帮助边际效益有限;而对于那些训练时几乎没有接触过的低资源语言,这条通道几乎是封闭的,COPSD的开凿效果也就最为显著。
**研究的边界与未来的路**
研究团队在论文中坦诚地指出了几个值得注意的局限。
首先,COPSD当前方案以英语作为唯一的高资源"参照语言",默认了英文推理能力是模型最强的能力。这对大多数主流模型是合理的假设,但在某些特殊场景下(例如针对特定地区语言的模型,其最强语言可能是法语或阿拉伯语),换用其他高资源语言作为参照可能效果更好。这个问题仍是开放的研究方向。
其次,尽管COPSD不要求翻译后的解题步骤,但训练题目本身仍然需要翻译成目标语言。机器翻译的不完美(尤其是数学表达式和逻辑关系的翻译错误)可能在一定程度上影响训练效果,这个噪音来源在研究中尚未被系统量化。
第三,整个训练体系依赖于"教师"(即开卷版模型)能够提供有效的引导。但当模型在某种语言上的能力极度匮乏时,即便给了它英文参考答案,它生成的"教师分布"也可能质量欠佳。这解释了为什么某些语言的训练曲线会在后期出现下滑——有价值的信号被耗尽后,继续训练反而是在跟随一个越来越不可靠的向导。
归根结底,这项研究最重要的贡献在于提出了一个清晰的框架:AI模型在低资源语言上的失败,往往不是因为它本身不具备解决问题的能力,而是因为它无法在那种语言的语境下激活这种能力。顺着这条思路,把高资源语言的能力作为"翻译媒介"传递给低资源语言版本的自己,是一条比从头收集标注数据、或依赖稀疏奖励信号更高效也更可行的路径。
在全球有数十亿人使用各类低资源语言的今天,这种思路的价值远不止于数学题的答对率,它指向的是AI工具能否真正为更广泛的人群所用这个更根本的问题。
---
Q&A
Q1:COPSD方法为什么不需要准备目标语言的解题步骤,却能让模型学会用那种语言解题?
A:COPSD的核心技巧是让同一个模型同时扮演"闭卷考生"和"开卷考官"两个角色。考生只看到用低资源语言写的题目,考官额外能看到英文题目和英文参考答案。训练时,考生自己尝试作答,考官在每一步推理上给出概率反馈,引导考生的每一步判断更接近考官的水平。因为教师和学生是同一个模型,它们的"思维方式"天然兼容,不存在外来翻译内容与模型思维不匹配的问题。密集的逐词反馈也避免了"只有对错判断"时信息匮乏的困境。
Q2:GRPO强化学习在低资源语言上为什么效果有限,甚至有时反而变差?
A:GRPO依赖"答对才给奖励"的机制。当模型在低资源语言上的答题正确率很低时,大多数尝试都得不到任何正面反馈,模型无从判断哪些推理步骤是正确的、哪些需要改进。这就像教游泳时只说"不对"从不示范,学习者很容易迷失方向。在极端情况下,模型为了追求奖励可能形成不稳定的学习路径,导致某些语言的表现还不如未训练版本。稀疏奖励在资源匮乏的场景下是一个根本性的瓶颈。
Q3:COPSD主要对哪类语言帮助最大,对中文或日语这类相对常见的语言也有效果吗?
A:COPSD的提升效果与语言的训练数据丰富程度成反比。对斯瓦希里语、泰卢固语等典型低资源语言,在PolyMath中等难度题目上提升幅度超过32个百分点;对孟加拉语这类中等资源语言也有约15个百分点的提升。而对中文、日语、俄语、西班牙语这类在主流模型预训练中有大量数据覆盖的语言,提升幅度则通常只有个位数,这是因为这些语言与高资源推理能力之间的通道本就相对畅通,COPSD能够额外开凿的空间有限。