[LG]《On the Origin of Algorithmic Progre

[LG]《On the Origin of Algorithmic Progress in AI》H Gundlach, A Fogelson, J Lynch, A Trisovic... [MIT FutureTech, CSAIL] (2025) 过去十年，AI算法效率被估计提升了2.2万倍，但我们的实验发现，关键创新的直接贡献不足10倍，文献中其他创新估计加起来也不到10倍，总计远低于此前预期。通过规模实验，我们发现大部分效率提升源自“规模依赖”算法，尤其是从LSTM到Transformer的架构转变，以及Kaplan到Chinchilla的规模重平衡，这两者合计解释了超过90%的效率跃升。本文提出了“计算等效增益函数”（CEG函数）概念，强调算法进步的效果强烈依赖于计算规模和参考算法。简单叠加小创新往往高估效益，且算法进步在小规模模型上表现缓慢，真正的飞跃出现在大规模时，这意味着大玩家从算法进步中获益更大。具体来看：- 绝大多数小规模模型上的算法改进（激活函数、位置编码、学习率调度、归一化、优化器）带来的效率提升有限，且相互作用并非乘法叠加。- LSTM与Transformer的比较显示，Transformer具有更优的计算扩展指数，规模越大优势越明显。- Kaplan到Chinchilla的训练数据与参数比例调整带来了显著的规模依赖性效率提升。- 不同参考点导致对算法进步的测量结果差异巨大：相对于LSTM，现代模型进步显著，但相对于现代Transformer，进步则微乎其微。- 算法效率提升不能脱离计算投入单独看，计算资源增长驱动了大部分所谓的算法进步。- 数据选择、Tokenizer改进、混合专家模型等也贡献了一定提升，但受限于实验规模难以精确量化。这意味着，未来AI算法进步可能更多依赖于新的大型架构突破，而非持续的小改进；同时算力限制可能阻碍算法进步的实现。算法创新对大规模模型开发者尤为关键，可能加剧玩家间差距。我们也提醒不要简单依赖单一的FLOP效率指标，而应综合考虑稳定性、泛化能力和部署成本等多维度因素。总之，算法进步的真相是：规模改变游戏规则，真正的质变在于“规模依赖”的架构跃迁，而非线性叠加的微小优化。这为AI未来的发展路径和资源投入提供了新的视角和警示。全文详见：arxiv.org/abs/2511.21622

群发资讯网

[LG]《On the Origin of Algorithmic Progre

热门分类