群发资讯网

美团LongCat团队:词汇库升级提升AI性能

考虑这样一个场景:当你想让一个人变得更聪明时,你会怎么做?传统的做法可能是找更多的专家来帮忙,但美团LongCat团队的

考虑这样一个场景:当你想让一个人变得更聪明时,你会怎么做?传统的做法可能是找更多的专家来帮忙,但美团LongCat团队的研究人员发现了一个更巧妙的方法——让这个人的"词汇库"变得更丰富。这项突破性研究发表于2026年1月,论文编号为arXiv:2601.21204v1,为大型语言模型的发展开辟了全新的道路。

当前的大型语言模型就像一个拥有众多专家顾问的智囊团,这些专家被称为"专家混合模型"(MoE)。每当模型需要处理问题时,它会选择几个最合适的专家来协作解决。这种方法确实有效,但随着模型规模的不断扩大,研究人员发现了一个问题:专家越来越多,但效果提升却越来越小,就像一个会议室里坐满了顾问,但真正发挥作用的却有限。

更重要的是,这种传统方法面临着严峻的技术瓶颈。当专家数量增加时,它们之间的沟通成本急剧上升,就像一个庞大的公司里部门间的协调成本会随着部门数量增加而急速攀升。这种沟通开销不仅消耗大量的计算资源,还会拖慢整个系统的运行速度。

美团LongCat团队的研究人员却另辟蹊径,他们将注意力转向了一个被忽视的维度——embedding scaling(嵌入缩放)。用通俗的话说,就是让模型的"词汇理解能力"变得更强。这就好比与其请更多的翻译专家,不如让现有的翻译掌握更丰富的词汇和短语搭配。

研究团队采用了一种叫做"N-gram嵌入"的技术,这个技术的核心思想相当巧妙。传统的模型在理解一个词时,只会单独看这个词本身,就像阅读时只关注单个字母。而N-gram嵌入则会同时考虑这个词和它前后的词组合,就像阅读时会注意词组和短语的含义。这样,模型就能更好地理解语言的上下文关系和微妙含义。

为了验证这种新方法的效果,研究团队进行了大规模的对比实验。他们训练了多个不同规模的模型,从2.8亿到13亿个激活参数不等,并在3000亿个token的语料库上进行预训练。实验结果令人兴奋:在特定条件下,通过扩展嵌入参数来增加模型总参数,比单纯增加专家数量能获得更好的性能提升。

一、发现最佳时机:何时使用词汇库扩展策略最有效

研究团队发现,嵌入扩展的效果并不是在任何情况下都最优的,它需要在合适的时机使用才能发挥最大作用。这就像烹饪时添加调料一样,时机很重要。

通过大量实验,研究人员绘制出了不同扩展策略的性能曲线。他们发现,当专家数量较少时,传统的专家扩展方法效果更好,因为此时增加专家能够显著提升模型的处理能力。但是,随着专家数量的增加,这种提升效果开始递减,就像一个厨房里已经有很多厨师时,再增加厨师反而可能造成混乱。

关键的转折点出现在模型的稀疏度达到一定水平时。研究团队用"总参数与激活参数的比值"来衡量这个稀疏度。当这个比值较低时,说明模型相对较密集,此时增加专家的边际效益很高。但当比值超过某个阈值(通常在模型稀疏度较高时),继续增加专家的效果就不如扩展嵌入参数了。

这个发现为模型设计提供了重要指导:N-gram嵌入应该在专家数量超过其"甜蜜点"时引入。这意味着,对于已经拥有大量专家的大型模型,与其继续增加专家,不如将资源投入到增强模型的词汇理解能力上。

二、精心设计的集成策略:如何巧妙地平衡各种因素

在确定了使用嵌入扩展的最佳时机后,研究团队还需要解决如何具体实施的问题。这个过程就像调配一道复杂的菜肴,需要精确控制各种配料的比例和添加顺序。

首先是参数预算的分配问题。研究团队发现,虽然扩展嵌入参数能带来性能提升,但并不是越多越好。通过仔细分析性能曲线,他们发现当N-gram嵌入参数占总参数预算的50%以上时,性能反而会下降。这就像做菜时调料放太多会掩盖食材本身的味道一样。因此,研究团队建议将不超过50%的总参数预算分配给N-gram嵌入。

其次是哈希冲突的问题。N-gram嵌入技术使用哈希函数来映射不同的词组合,但有时不同的词组可能被映射到同一个位置,造成冲突。研究团队发现,词汇表大小的选择对减少这种冲突至关重要。他们通过分析发现,当N-gram词汇表大小接近基础词汇表大小的整数倍时,哈希冲突会显著增加。为了避免这个问题,他们建议N-gram嵌入的词汇表大小应该明显偏离基础词汇表大小的整数倍。

在超参数设置方面,研究团队测试了不同的N-gram阶数(N值)和子表数量(K值)的组合。他们发现,当N和K都设置为最小值时,模型性能明显不佳。但当N≥3且K≥2时,不同配置之间的性能差异变得相对较小,这表明模型在这个参数范围内具有较好的鲁棒性。实践中,他们推荐将N设置在3到5之间,这样既能捕获足够的上下文信息,又不会因为过度稀疏而影响学习效果。

特别值得注意的是嵌入放大技术的应用。研究团队在早期实验中发现,如果不对嵌入模块进行特殊处理,N-gram嵌入的贡献可能会被其他模块的输出"淹没"。通过层级分析,他们发现第一个注意力模块的输出L2范数比嵌入模块的输出大约大10倍。这意味着在残差连接中,注意力输出会主导信息流,而嵌入信号会被边缘化。

为了解决这个问题,研究团队探索了两种嵌入放大策略。第一种是引入缩放因子,通常设置为√D(其中D是隐藏维度),来放大嵌入输出。第二种是在嵌入输出与残差分支合并前应用层归一化。这两种方法都能有效确保嵌入信号在前向传播中得到充分利用,实验结果显示能够在训练损失和验证损失上都获得约0.02的一致改善。

三、模型宽度与深度的影响:不同架构下的最佳策略

研究团队进一步探索了模型架构对嵌入扩展效果的影响,这个发现对于实际应用具有重要指导意义。

在模型宽度方面,研究结果显示了一个令人鼓舞的趋势。随着模型宽度(即激活参数规模)的增加,N-gram嵌入相对于传统专家扩展的优势变得更加明显。具体来说,在2.8亿激活参数的模型中,N-gram嵌入只有在较低的参数比值范围内才能超越专家扩展。但在7.9亿激活参数的模型中,N-gram嵌入的优势范围显著扩大。而到了13亿激活参数的模型中,即使在相当高的参数比值下,N-gram嵌入仍能保持明显的性能优势。

这种现象可以用一个生动的比喻来理解:就像一个大型图书馆比小型图书馆更能从丰富的索引系统中受益一样,更宽的模型能够更好地利用增强的词汇理解能力。宽模型拥有更大的表征空间,能够更有效地存储和利用N-gram嵌入提供的丰富语言信息。

然而,模型深度的影响却呈现出相反的趋势。研究团队测试了10层、20层和40层的不同深度模型,发现随着层数的增加,N-gram嵌入的相对优势逐渐减小。这是因为在预归一化架构中,来自嵌入层的信息需要通过残差连接传播到更深的层次,但随着深度增加,早期层的直接影响会逐渐衰减。

这个发现对实际应用具有重要意义。当前主流的语言模型通常深度不超过40个shortcut层(相当于80个传统层),而它们的宽度却在不断增加。研究结果表明,在这种发展趋势下,N-gram嵌入的优势将会更加突出,因为宽度的扩展能够放大其效果,而深度的适中范围不会显著削弱其贡献。

四、推理效率的突破:从理论优势到实际加速

将N-gram嵌入的理论优势转化为实际的推理加速是这项研究的另一个重要贡献。研究团队不仅证明了嵌入扩展在训练效果上的优势,还成功地将这种优势转化为了实际的系统性能提升。

N-gram嵌入机制实现了一个巧妙的参数重新分配:它将参数从MoE层转移到嵌入空间。这种架构调整在保持总参数量不变的同时,减少了MoE层内的激活参数数量。对于那些受内存I/O限制的大token数量解码场景,这种改变带来了显著的优势。

更重要的是,增加嵌入层大小不会带来延迟惩罚,因为嵌入查找的计算成本与输入token数量成正比,而不是与嵌入参数总数成正比。这就像查字典一样,无论字典有多厚,查找单个词汇的时间都是相对固定的。

为了充分利用参数稀疏性带来的效率提升,研究团队认识到需要通过大批量处理来最大化硬件利用率。这自然地与推测解码技术形成了协同效应。多步推测解码能够有效扩大"有效批量大小",从而将理论上的参数稀疏性优势转化为实际的推理加速。

然而,将参数从专家重新分配到N-gram嵌入也带来了新的挑战。相比标准嵌入层,N-gram嵌入在I/O、计算和通信方面都引入了额外开销。现代推理框架的复杂调度机制使得预先确定前向传播的确切token序列变得困难,这进一步复杂化了N-gram嵌入查找的优化。

为了解决这些挑战,研究团队开发了N-gram缓存,这是一个专门的缓存机制,设计灵感来源于KV缓存的成功实践。他们实现了定制的CUDA内核来直接在设备上管理N-gram ID,实现与各种推理优化技术的低开销同步。这种设计显著提升了N-gram嵌入的计算效率。

在推测解码场景中,由于草稿模型通常层数较少且延迟更低,N-gram嵌入的开销会变得相对更加明显。为了缓解这个问题,研究团队提出了两个互补的优化策略:为草稿模型使用传统嵌入层以避免更昂贵的n-gram查找;在草稿阶段缓存n-gram嵌入,以消除后续验证步骤中的冗余计算。

五、LongCat-Flash-Lite:理论转化为实践的成功案例

基于前述所有研究发现,美团LongCat团队开发了LongCat-Flash-Lite模型,这是一个从头开始训练的大型语言模型,充分展现了嵌入扩展策略的实际效果。

LongCat-Flash-Lite采用与LongCat-Flash相同的基础架构,总共包含14个shortcut层,拥有685亿个总参数。根据上下文的不同,模型会动态激活29亿到45亿个参数,这种动态激活机制得益于零专家的设计。在每个shortcut层中,MoE模块由256个FFN专家和128个零专家组成,每个token会选择12个专家进行处理。特别值得注意的是,该模型包含314亿个N-gram嵌入参数,占总参数量的46%,这一比例恰好符合研究团队发现的最佳参数分配策略。

模型的训练过程遵循了与LongCat-Flash-Chat相同的数据配方。首先在11万亿个token上进行预训练,序列长度为8k;然后进行15万亿token的中训练,将序列长度扩展到128k;最后在SFT数据上进行监督微调。为了支持扩展的上下文处理,研究团队在32k序列长度的训练阶段实现了YARN技术,使LongCat-Flash-Lite能够处理高达256k token的序列。

为了验证嵌入扩展策略的有效性,研究团队还训练了一个对照模型LongCat-Flash-Lite-Vanilla,该模型具有完全相同的总参数量,但通过将所有N-gram嵌入参数转换为额外的专家来实现。两个模型使用完全相同的训练策略和数据配方,确保了比较的公平性。

在整个训练过程中,LongCat-Flash-Lite始终保持比LongCat-Flash-Lite-Vanilla更低的训练损失,这直接证明了嵌入扩展策略的优势。为了全面评估模型性能,研究团队在涵盖三个核心能力领域的基准测试上进行了评估:通用任务包括MMLU、MMLU-Pro、C-Eval和CMMLU;推理任务包括BBH、GPQA、DROP和GSM8K;编程任务包括HumanEval+、MultiPL-E和BigCodeBench。

评估结果令人鼓舞:LongCat-Flash-Lite在绝大多数基准测试上都显著超越了LongCat-Flash-Lite-Vanilla。这些发现验证了研究团队的核心假设:当稀疏度达到足够水平时,通过N-gram嵌入来战略性地扩展总参数,同时保持嵌入参数的最佳比例,始终优于仅仅增加专家数量的方法。

六、聊天模型的卓越表现:在实际应用中的突出能力

LongCat-Flash-Lite的聊天版本在多个实际应用场景中展现出了卓越的性能,特别是在智能体工具使用、智能体编程、通用领域知识和数学推理等方面。

在智能体工具使用任务中,LongCat-Flash-Lite表现出色,在所有比较模型中建立了明显的领先优势。在τ2-Bench基准测试中,它在所有三个子场景中都获得了最高分:电信场景得分72.8,零售场景73.1,航空场景58.0。特别是在电信场景中,它的表现显著超越了Gemini 2.5 Flash-Lite和Kimi-Linear-48B-A3B。这突出了模型在处理复杂工具依赖关系和特定领域任务执行方面的卓越能力。在VitaBench测试中,它获得了7.00的高分,超过了Qwen3-Next-80B-A3B-Instruct的5.80分和Gemini 2.5 Flash-Lite的4.50分,这进一步证明了模型在通过工具集成处理复杂现实世界任务工作流方面的优越能力。

在编程相关任务中,LongCat-Flash-Lite展现出了卓越的实际问题解决能力。在SWE-Bench测试中,它达到了54.4的准确率,大幅超越了所有基线模型——比Qwen3-Next-80B-A3B-Instruct的37.6、Gemini 2.5 Flash-Lite的41.3和Kimi-Linear-48B-A3B的32.8都有显著提升。这表明模型在解决现实软件工程问题(包括错误修复和功能实现)方面的熟练程度。在评估终端命令执行能力的TerminalBench中,LongCat-Flash-Lite获得了33.75的领先分数,远超Qwen3-Next-80B-A3B-Instruct的15.19、Gemini 2.5 Flash-Lite的20.0和Kimi-Linear-48B-A3B的20.0,体现了其在理解和执行对开发者导向智能应用至关重要的终端相关指令方面的强大能力。

在跨语言编程能力方面,LongCat-Flash-Lite在SWE-Bench多语言测试中取得38.10的成绩,超过了Qwen3-Next-80B-A3B-Instruct的31.3和Kimi-Linear-48B-A3B的37.2,展现了在多语言开发环境中的可靠适应性。在PRDBench测试中,它获得39.63的高分,显著超过Qwen3-Next-80B-A3B-Instruct的15.36,研究团队观察到该模型能够自主编写单元测试来验证其开发工作,产出更高质量的代码仓库。

在通用领域知识任务方面,LongCat-Flash-Lite提供了均衡且具有竞争力的性能。在MMLU测试中,它获得85.52分,与Gemini 2.5 Flash-Lite的84.68和Kimi-Linear-48B-A3B的79.91相当,仅略低于Qwen3-Next-80B-A3B-Instruct的89.28。在中文特定基准测试中,它在CEval和CMMLU上分别获得86.55和82.48分,相比Kimi-Linear-48B-A3B的78.48和76.26以及Gemini 2.5 Flash-Lite的75.16和72.06都有显著优势。在GPQA-Diamond测试中,它获得66.78分,在基准性能范围内保持了竞争力。对于MMLU-Pro,它达到78.29分,在处理更具挑战性的多任务语言理解问题上展现了扎实的性能。

在数学推理能力方面,LongCat-Flash-Lite在基础和高级任务中都展现出了强劲的数学推理能力。在MATH500上,它达到96.80的准确率,接近Qwen3-Next-80B-A3B-Instruct的98.00,并超越了Gemini 2.5 Flash-Lite的95.20。在高级数学竞赛基准测试中,它取得了令人印象深刻的成绩:AIME24得分72.19,AIME25得分63.23。这些分数超越了Kimi-Linear-48B-A3B的70.52和59.58,以及Gemini 2.5 Flash-Lite的63.33和50.1,突显了模型处理复杂多步数学推导的能力。

七、系统级优化:让理论优势变为实际速度提升

为了将极度稀疏激活带来的理论优势转化为实际的推理加速,研究团队实施了一系列系统级优化。这些优化就像为一台精密机器配置了最合适的运行环境,让其能够发挥出最大性能。

由于模型具有极度的激活稀疏性,充分利用GPU内存带宽需要较大的有效批量大小。研究团队采用"Eagle3"技术部署模型,配合"3步推测解码策略"。类似于之前的优化实践,他们采用了宽Expert Parallel和Single Batch Overlap来加速推理速度。虽然这些优化成功扩大了有效批量大小,但模型的轻量化特性使得瓶颈转移到了内核启动开销上,这给维持高GPU占用率带来了挑战。

为了解决这个问题,研究团队实现了多项系统级优化。在内核优化方面,他们应用了广泛的内核融合来减少执行开销和内存流量。具体来说,所有TP组内的通信操作都与后续的细粒度内核融合,包括AllReduce + 残差相加 + RMSNorm、AllGather + Q-Norm + KV-Norm,以及ReduceScatter + RMSNorm + 隐藏状态合并。对于量化模型,他们将每个激活量化步骤集成到现有操作中,包括前述的通信融合内核和SwiGLU组件。此外,路由器逻辑处理(Softmax + TopK + 路由器缩放)和零专家选择被整合到单一统一内核中。

在注意力合并优化方面,他们在解码阶段采用splitkv-and-combine策略。当KV分割数量较高时,合并操作可能产生显著延迟,有时与计算本身相当。通过优化合并内核,他们有效地将其延迟减少了50%。

研究团队还利用了程序化依赖启动(PDL)技术,允许依赖内核通过触发早期启动来重叠执行。这种机制不仅消除了连续内核之间的间隙,还提高了SM利用率。

基于这些综合优化,LongCat-Flash-Lite在8xH800-80G配置下实现了卓越的推理性能。在输入序列长度为4K、输出序列长度为1K的设置下,模型展现出了优异的吞吐性能表现。这些实际测试结果证明了从理论优势到系统性能提升的成功转化。

说到底,美团LongCat团队的这项研究揭示了一个重要的新方向:在大型语言模型的发展过程中,我们不必总是依赖增加更多的"专家"来提升性能。有时候,让模型更好地理解词汇之间的关系和组合,反而能取得更好的效果。这就像学习一门外语时,与其背诵更多单词,不如深入理解词汇的搭配和用法一样。

这项研究的意义远不止于技术层面的突破。对于普通用户而言,这意味着未来的AI助手可能会变得更加聪明和高效,同时运行成本可能会更低。对于企业来说,这种新的扩展策略提供了一条更经济、更可持续的AI发展路径。而对于整个AI行业,这项研究开辟了一个全新的研究方向,可能会影响未来几年大型语言模型的发展轨迹。

LongCat-Flash-Lite模型的成功实践证明了这种新方法的可行性。它不仅在各种任务上表现出色,特别是在编程和工具使用方面展现出了突出能力,更重要的是验证了嵌入扩展策略在实际应用中的价值。这为后续研究者提供了宝贵的参考,也为AI技术的进一步发展指明了新的方向。

**Q&A**

Q1:N-gram嵌入技术是什么?

A:N-gram嵌入是一种让AI模型更好理解词汇组合的技术。传统模型理解一个词时只看这个词本身,而N-gram嵌入会同时考虑这个词和它前后的词组合,就像阅读时注意词组和短语含义一样,让模型能更好地理解语言的上下文关系。

Q2:为什么嵌入扩展比增加专家更有效?

A:当专家数量增加到一定程度后,它们之间的沟通成本会急剧上升,效果提升却越来越小。而嵌入扩展是通过增强模型的词汇理解能力来提升性能,不会增加专家间的协调开销,在高稀疏度模型中能获得更好的性能提升。

Q3:LongCat-Flash-Lite模型有什么特别之处?

A:LongCat-Flash-Lite是美团团队基于嵌入扩展策略训练的68.5B参数模型,其中31.4B参数用于N-gram嵌入。该模型在编程和智能体工具使用任务上表现特别出色,同时运行效率更高,证明了嵌入扩展策略的实际价值。