慕尼黑大学: 当AI只会说英语时，低资源语言数学推理的破局之道

这项由德国慕尼黑大学语言与信息处理中心（CIS LMU）联合慕尼黑机器学习中心（MCML）开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.09548v1，有兴趣深入了解的读者可以通过该编号查阅完整原文。

**一个被忽视的不公平**

如果你用中文或英文向一个顶尖AI模型提问数学题，它很可能对答如流。但如果换成斯瓦希里语、约鲁巴语或阿姆哈拉语呢？同样的模型、同样的题目，答对率可能骤降至个位数。这不是因为这些语言的使用者更笨，而是因为这些语言在AI的"成长教材"里几乎缺席——它们被称为"低资源语言"，意思是互联网上用这些语言写成的高质量文本少得可怜，模型在训练阶段几乎没有机会接触它们。

这种不平等在全球17亿非洲语言使用者身上体现得尤为明显。随着大型语言模型（可以理解为能够阅读、思考和回答问题的超级AI程序）在教育、医疗、科研领域扮演越来越重要的角色，如果这些工具只为少数语言服务，那对其余语言的使用者而言就是一场系统性的排斥。

慕尼黑大学的研究团队注意到了这个问题，并着手寻找解决之道。他们的核心发现颇为出人意料：这些AI模型其实已经具备解决数学题的潜在能力，只是当题目用低资源语言呈现时，它无法"激活"这种能力。问题不在于模型不会做题，而在于它不知道如何用那种语言做题。

**一、为什么现有方法都不够好**

在讲研究团队的解决方案之前，有必要先理解他们面对的是一个多么棘手的处境，以及此前已有的尝试为何都存在明显缺陷。

最直觉的想法是：既然模型会用英语解题，那就把所有解题步骤翻译成目标语言，再用这些翻译内容来训练模型。这就像给一位只会英语的家教准备了一份用斯瓦希里语写成的教案，然后让他照着教。问题在于，机器翻译本身并不完美，尤其面对数学题时，分数、符号、逻辑关系极容易在翻译中出错或产生歧义。更糟糕的是，这些翻译出来的解题步骤并非模型自己"想"出来的，它的思维方式和这些外来内容之间存在根本性的错位——就像让一个习惯从左向右写字的人，突然去读从右向左的镜像文字，即使内容一样，阅读体验也会大打折扣。

另一种尝试是强化学习：给模型出题，答对了就奖励，答错了不管。这听起来像一种公平的训练方式，但在低资源语言场景下会遭遇一个致命困境。当模型答对率极低时，这种"答对才有奖励"的机制几乎等于什么信息都没有提供。绝大多数时候模型得到的反馈是沉默，它根本不知道自己哪里做错了，应该怎样改进。这就好比教一个孩子学游泳，每次他快要学会某个动作时你只说"不对"，从不解释为什么，也不示范正确姿势——进步会极其缓慢，甚至产生挫败感而放弃。

这两条路都走不通，研究团队意识到，他们需要一种既能提供密集反馈（不只是"对"或"错"），又能与模型自身思维方式保持一致的训练信号。

**二、用模型本身来教模型自己**

研究团队提出的解决方案有一个绕口但精准的名字：跨语言在线策略自蒸馏，英文缩写为COPSD。理解这个方法最好的方式，是把它想象成一个人同时扮演两个角色——一个是"闭卷考生"，一个是"开卷考官"。

关键在于，考生和考官其实是同一个AI模型，只是给它们看的信息不一样。考生只能看到用低资源语言写的数学题，就像真实使用场景中的情形；考官则额外能看到这道题的英文版本，以及英文参考答案。两者用的是同一个大脑，但考官因为有了额外的英文参照，能更准确地知道每一步该怎么想。

训练过程是这样运作的：先让"闭卷考生"自己尝试作答，生成一套完整的解题过程。接着，"开卷考官"也审视这套解题过程，并在每一个推理步骤上给出自己认为更好的概率分布——也就是说，在考生写下某个词之后，考官会告诉它"在这个位置，下一个词应该有多大概率选择哪个选项"。训练的目标就是让考生的每一步选择都尽可能接近考官的判断。

这种逐词反馈的方式与之前"只看最终答案"的做法形成了鲜明对比。用一个比方来说：如果考生的解题过程有20步，强化学习只会在最后告诉它"错了"；而COPSD会在每一步都轻声提示"这里可以更好"。密集的反馈让学习效率成倍提升，这就是"蒸馏"这个词的来源——就像蒸馏酒精，把有价值的成分一点点提纯出来，而不是等到最后才开盖子看结果。

"在线策略"这个词则意味着，训练时用的解题过程始终来自考生自己的真实尝试，而非从其他地方搬来的"模范答案"。这确保了模型学到的技巧，是真正能在实际回答时用上的东西，而不是表演给外人看的花架子。

**三、让模型专注于用目标语言思考**

大型语言模型有一个有趣的习惯：即便你用约鲁巴语问它问题，它在"脑子里"思考时仍然可能偷偷切换回英语，最后再把答案翻译回来。这种"语言漂移"现象在之前的研究中已有记录，它会让我们很难判断模型究竟是真的在用那种语言推理，还是只是在表演。

研究团队为此设计了一套"语言锁定"策略。他们为每种目标语言单独准备了一条开场白，紧跟在模型开始思考的标志（``标签）之后插入。以斯瓦希里语为例，这条开场白的意思是"按照要求，我将开始用斯瓦希里语思考"。这个短短的句子起到了锚点的作用，帮助模型把整个推理过程都维持在目标语言中。

这种方法在圈内被戏称为"提示词破解"（prompt hacking），听起来有些调皮，但背后是严肃的工程逻辑：通过精心设计的输入，引导模型产生我们期望的行为模式。为了让这个策略对17种不同的非洲语言都有效，研究团队为每种语言单独撰写了语言特定的开场白，这些开场白用该语言本身书写，真正从语言内部发出"继续用我说话"的信号。

另外，每道题目的末尾也附有该语言的作答指示，要求模型分步推理，并将最终答案放在特定格式的括号内（`\boxed{}`）。这个格式要求看似细节，却在后续分析中展现出重要价值——关于这一点，我们很快就会讲到。

**四、实验设置：17种语言，三种模型规模**

为了全面检验COPSD的效果，研究团队做了一套相当扎实的实验。

训练数据来自一个名为OpenThoughts的英文数学推理数据集，研究团队从中抽取了500道题，并用谷歌的Gemini-3-Flash模型将这些题目翻译成17种非洲语言（覆盖班图语系、闪族语系、库希特语系等多个语言家族，以及拉丁字母、埃塞俄比亚字母、瓦伊字母等多种书写系统）。英文题目和英文参考答案作为"教官版"信息，供教师策略使用；翻译后的题目则作为"考生版"输入。

测试的AI模型选用了Qwen3系列，分别测试了1.7亿、40亿和80亿参数三种规模（参数数量可以粗略理解为模型"神经元"的数量，越多通常能力越强）。这三种模型都已经经过大量高资源语言数据的预训练，具备良好的英文推理能力，但在非洲语言上的表现参差不齐。

评估使用的基准测试叫做AfriMGSM，这是一套由人工翻译（而非机器翻译）的数学题集，覆盖上述17种非洲语言，每种语言各有250道题。评估指标采用pass@12：对每道题生成12个答案，只要其中至少一个正确就算通过。这种评估方式比只看单次正确率更宽容，更适合反映模型的真实能力上限。

对比的基准有两个：一个是原始的Qwen3模型（没有经过任何额外训练），另一个是用GRPO方法训练的版本（GRPO是一种基于最终答案对错来给奖励的强化学习方法，代表了当前主流的推理增强路线）。

**五、数字说话：COPSD的提升有多大**

结果相当清晰，尤其对最小的1.7B模型而言，提升幅度令人印象深刻。

在17种低资源非洲语言的平均pass@12得分上，1.7B规模的原始模型得了9.11分，GRPO训练后几乎原地踏步，只涨到9.18分——这个差距小到几乎可以忽略。而经过COPSD训练后，同一模型的得分跃升至15.53分，相对提升超过70%。几乎每一种语言都有改善，覆盖了从班图语到闪米特语、从拉丁字母到埃塞俄比亚字母的广泛范围，说明这种提升并不依赖于某种特定的语言结构。

40亿参数的模型从19.20分提升到20.61分，绝对提升幅度较小，但这部分原因是更大的模型基准性能本就更高，提升空间相对有限。80亿参数的模型则从19.41分提升到23.55分，绝对提升约4分，相对提升约21%。

GRPO的表现则耐人寻味。在某些语言上，GRPO训练反而让模型的得分低于原始版本，印证了研究团队之前的判断：当模型很少能给出正确答案时，纯粹依赖"答对才奖励"的机制会陷入恶性循环。模型大部分时间得不到有效反馈，更新方向混乱，甚至在某些语言上走向倒退。

**六、格式遵从度：被忽视的关键因素**

在分析训练过程中，研究团队注意到一个有趣的现象：模型的pass@12得分与它是否能正确把答案写进`\boxed{}`括号之间，存在强烈的正相关关系。

这个指标被称为"格式遵从率"，听起来像是细枝末节的形式要求，实则反映了更深层的问题。如果一个模型连"把答案放进括号"这么简单的指令都无法稳定执行，往往意味着它的推理过程本身就是混乱的——它要么在生成无意义的重复内容，要么在低资源语言中迷失了方向，找不到正确的落笔位置。

研究团队计算了训练过程中格式遵从率与pass@12的皮尔逊相关系数，在1.7B模型上达到0.628，4B模型上高达0.838，8B模型上为0.728。这些数字告诉我们，一个模型越能稳定地遵守格式要求，它就越有可能真正解对题目。COPSD在提升答题正确率的同时，也显著提升了格式遵从率，而GRPO在这方面几乎毫无改善。

换句话说，COPSD不仅让模型"想得更对"，也让模型"表达得更清晰"，这两者是相辅相成的。

**七、训练动态：快速收效，也有饱和风险**

研究团队还仔细记录了训练过程中模型表现随步数变化的曲线，这些曲线揭示了COPSD的一个典型规律：效果来得快，但持续性有限。

对1.7B模型而言，训练曲线呈现出平稳上升然后趋于平稳的态势，整个训练过程中性能持续高于原始基准。对4B和8B模型而言，最好的表现往往出现在训练开始后的前几步，随后出现轻微下滑。研究团队分析认为，这是因为模型能够迅速吸收教师策略提供的密集信号，但如果模型在目标语言上的生成能力本身就比较有限，那么教师给出的"建议"随着训练深入可能开始出现质量下滑，继续跟随反而会造成轻微损害。

这是一个重要的工程细节：在实际应用中，研究团队为每种语言和模型规模分别选择了在1024词元预算下表现最好的检查点，而不是一刀切地选择最终模型。这种谨慎的做法确保了最终报告的数字是真正最优的。

与此形成对比的是GRPO的训练曲线：无论pass@12还是格式遵从率，都基本是一条平线，看不到任何明显的上升趋势，偶尔的波动更像是随机噪声而非真实学习。这与其在最终表现上的平庸一脉相承，进一步证实了稀疏奖励在低资源场景下的根本局限。

**八、推理长度与性能的微妙关系**

AI模型在回答问题时，如果允许它"多想一会儿"——也就是生成更长的推理过程——通常能给出更好的答案。这被称为"测试时计算扩展"，可以理解为给考生更多草稿纸。研究团队在三种生成预算（1024、2048、4096个词元）下分别测试了所有模型，结果呈现出清晰的规律。

对于更大规模的模型，这种扩展效果更为显著且稳定。8B规模的原始模型在1024词元预算下平均得分为14.73，而在4096词元预算下提升到19.41；COPSD训练后的8B模型则从18.12提升到23.55，相对提升幅度达到30.0%，高于同等条件下GRPO的13.8%。

以祖鲁语为例，这种差距最为突出：在4096词元预算下，COPSD训练的8B模型达到约28%的pass@12，而原始模型和GRPO训练模型都停留在约16%左右。这意味着COPSD不仅提升了模型的"单次最优表现"，更实质性地改善了模型利用额外计算资源的能力——给它更多思考空间，它能做出更好的利用。

对于最小的1.7B模型，这种扩展效果则不那么稳定，有些语言在从2048增加到4096词元时甚至出现了轻微下滑，而GRPO训练版本在2048词元预算下还出现了负增长（相比1024词元预算反而下降14.2%）。这印证了一个在该领域逐渐形成的共识：有效利用更长的推理轨迹需要足够的模型容量支撑。

**九、少重复，更清晰**

研究团队还检测了一个经常在低资源语言推理中出现的问题：模型进入重复循环。用白话说，就是模型在用某种小众语言回答问题时，有时会像卡带一样不断重复相同的短语或句子，而不是真正在推进解题过程。

为了量化这种现象，研究团队定义了一个"重复率"指标：计算生成文本中重复出现的连续词组（n-gram）的比例。这个指标越高，说明模型越容易陷入重复循环；越低，说明生成内容越多样、越流畅。

COPSD训练后的模型在2-gram到6-gram的所有粒度上，重复率都持续低于原始模型和GRPO训练版本，而且这个优势从训练初期就能观察到，并在整个训练过程中保持稳定。低重复率不只是意味着文字更多样，更意味着模型在低资源语言中的推理过程更加连贯，不容易陷入无意义的循环，这与整体答题正确率的提升是相互印证的。

**十、走向更难的题目，走向更多的语言**

AfriMGSM的题目相对基础，属于中学数学难度。研究团队进一步在一个更具挑战性的多语言数学基准（PolyMath）上测试了COPSD的效果，该基准包含难、中、简三个难度级别，研究团队选取了8种不同资源丰度的语言进行测试：低资源的斯瓦希里语（非洲东部）和泰卢固语（南亚），中高资源的泰语、俄语、孟加拉语、日语、中文和西班牙语。

结果验证了一个重要的规律：COPSD的收益与语言的资源匮乏程度成正比。对斯瓦希里语，在中等难度题目上，COPSD相比原始模型提升了32.0个百分点；泰卢固语则提升了32.8个百分点；孟加拉语提升了15.2个百分点。而日语、中文、俄语、西班牙语等高资源语言的提升幅度则相对有限，通常在个位数左右。

这个规律告诉我们：COPSD的本质是帮助模型打通一条从"会用英语解题"到"会用目标语言解题"的传输通道。对于模型已经有足够训练数据的语言（如中文、日语），这条通道本就比较畅通，额外的帮助边际效益有限；而对于那些训练时几乎没有接触过的低资源语言，这条通道几乎是封闭的，COPSD的开凿效果也就最为显著。

**研究的边界与未来的路**

研究团队在论文中坦诚地指出了几个值得注意的局限。

首先，COPSD当前方案以英语作为唯一的高资源"参照语言"，默认了英文推理能力是模型最强的能力。这对大多数主流模型是合理的假设，但在某些特殊场景下（例如针对特定地区语言的模型，其最强语言可能是法语或阿拉伯语），换用其他高资源语言作为参照可能效果更好。这个问题仍是开放的研究方向。

其次，尽管COPSD不要求翻译后的解题步骤，但训练题目本身仍然需要翻译成目标语言。机器翻译的不完美（尤其是数学表达式和逻辑关系的翻译错误）可能在一定程度上影响训练效果，这个噪音来源在研究中尚未被系统量化。

第三，整个训练体系依赖于"教师"（即开卷版模型）能够提供有效的引导。但当模型在某种语言上的能力极度匮乏时，即便给了它英文参考答案，它生成的"教师分布"也可能质量欠佳。这解释了为什么某些语言的训练曲线会在后期出现下滑——有价值的信号被耗尽后，继续训练反而是在跟随一个越来越不可靠的向导。

归根结底，这项研究最重要的贡献在于提出了一个清晰的框架：AI模型在低资源语言上的失败，往往不是因为它本身不具备解决问题的能力，而是因为它无法在那种语言的语境下激活这种能力。顺着这条思路，把高资源语言的能力作为"翻译媒介"传递给低资源语言版本的自己，是一条比从头收集标注数据、或依赖稀疏奖励信号更高效也更可行的路径。

在全球有数十亿人使用各类低资源语言的今天，这种思路的价值远不止于数学题的答对率，它指向的是AI工具能否真正为更广泛的人群所用这个更根本的问题。

---

Q&A

Q1：COPSD方法为什么不需要准备目标语言的解题步骤，却能让模型学会用那种语言解题？

A：COPSD的核心技巧是让同一个模型同时扮演"闭卷考生"和"开卷考官"两个角色。考生只看到用低资源语言写的题目，考官额外能看到英文题目和英文参考答案。训练时，考生自己尝试作答，考官在每一步推理上给出概率反馈，引导考生的每一步判断更接近考官的水平。因为教师和学生是同一个模型，它们的"思维方式"天然兼容，不存在外来翻译内容与模型思维不匹配的问题。密集的逐词反馈也避免了"只有对错判断"时信息匮乏的困境。

Q2：GRPO强化学习在低资源语言上为什么效果有限，甚至有时反而变差？

A：GRPO依赖"答对才给奖励"的机制。当模型在低资源语言上的答题正确率很低时，大多数尝试都得不到任何正面反馈，模型无从判断哪些推理步骤是正确的、哪些需要改进。这就像教游泳时只说"不对"从不示范，学习者很容易迷失方向。在极端情况下，模型为了追求奖励可能形成不稳定的学习路径，导致某些语言的表现还不如未训练版本。稀疏奖励在资源匮乏的场景下是一个根本性的瓶颈。

Q3：COPSD主要对哪类语言帮助最大，对中文或日语这类相对常见的语言也有效果吗？

A：COPSD的提升效果与语言的训练数据丰富程度成反比。对斯瓦希里语、泰卢固语等典型低资源语言，在PolyMath中等难度题目上提升幅度超过32个百分点；对孟加拉语这类中等资源语言也有约15个百分点的提升。而对中文、日语、俄语、西班牙语这类在主流模型预训练中有大量数据覆盖的语言，提升幅度则通常只有个位数，这是因为这些语言与高资源推理能力之间的通道本就相对畅通，COPSD能够额外开凿的空间有限。

群发资讯网

慕尼黑大学: 当AI只会说英语时，低资源语言数学推理的破局之道

热门分类