【Kimi团队提出𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖

【Kimi团队提出𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔】

快速阅读Kimi团队提出Attention Residuals，用学习式的跨层注意力机制取代传统残差连接的固定累加方式。这一改动在48B参数模型上实现了1.25倍的计算效率提升，推理延迟增加不到2%。

---

Claude的分析里有句话值得琢磨：这不是在解决问题，而是在质疑一个被默认为已解决的前提。

残差连接自2015年提出后就被当作标准配置。每一层的输出以相同权重累加到最终状态，第1层和第47层拥有同等话语权。这在计算上公平，在认知上荒谬——就像把你所有记忆都当作同等重要。

Attention Residuals的核心是让每一层主动选择需要“记住”哪些先前层的表示。不是盲目叠加，而是通过注意力机制做内容相关的检索。听起来简单，但十年里没人动这个地方。

Block AttnRes是让这个想法能落地的关键。全跨层注意力的内存开销是O(L²d)，在深层网络里会爆炸。他们把层分组成块，每层只对块级表示做注意力计算，开销降到O(Nd)。训练时增加不到4%的时间，推理时延迟增加不到2%，换来1.25倍的计算效率。

训练动态的改善藏在细节里。PreNorm架构里的表示稀释和隐藏状态爆炸不只是效率问题，也是稳定性问题。AttnRes让输出幅值跨层更均匀，梯度分布更合理，同时解决这两个问题。

在Kimi Linear（48B总参数，3B激活参数）上用1.4T tokens预训练后，GPQA-Diamond涨了7.5分，HumanEval涨3.1分，数学任务涨3.6分。这些提升是架构级的，不是靠堆算力。

有观点认为深度维度现在变成了可以被注意到的对象，网络不再是严格的顺序管道，更像是结构化的记忆系统。如果深度能被选择性检索，长上下文任务里早期信息的召回应该会得到明显改善。

有网友提到这让开源模型可以几行代码就插入这个机制，drop-in替换。效率差距可能不需要更多GPU来弥补。

但也有疑问。在Kimi K2.5这样的新架构上（1T参数、MoE、多模态、256K上下文、Agent Swarm），AttnRes的开销是否还能保持这么低？模型变大变复杂后，跨层注意力会不会被放大？

有人说这是今年看到的结构上最优雅的论文之一。有人说我们正在碰到传统算法工程的收益递减定律。也有人想知道能否把提示词的结构压缩成数学上的算法改进。

第一作者陈光宇今年16岁。

github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

AI创造营人工智能

群发资讯网