用了十年的神经网络“脚手架”，Kimi团队说它有根本性缺陷_农村发展

用了十年的神经网络“脚手架”，Kimi团队说它有根本性缺陷

创始人

2026-03-28 02:48:52

0次

2026年3月16日，月之暗面发布了一篇技术报告，题目叫《Attention Residuals》（注意力残差）。报告不长，不到20页，但它挑战的是一个已经沿用十年、被写进几乎所有现代大模型的基础组件——残差连接（Residual Connection）。

月之暗面近年来在架构层面动作频繁。他们发布了Kimi Linear（一种混合线性注意力架构）、Kimi K2（32B激活参数的开源MoE模型）、以及在FAST 2025拿下最佳论文的KV存储系统Mooncake。这篇Attention Residuals报告延续了这种风格：不在应用层卷，去碰那些大家认为已经"解决了"的底层问题。Kimi创始人杨植麟曾公开表示，他们的目标是改掉AI领域"八九年前的老标准"，包括优化器、注意力架构——现在又加上了残差连接。

这篇报告发出后，收到了来自Andrej Karpathy等人的关注。更奇特的是，一个据说17岁的研究者写了一篇相关解读帖，被Elon Musk转发点赞。

十年没人动过的那根"管道"

要理解这篇论文在说什么，得先想清楚残差连接到底是什么。

2015年，微软研究院的何恺明提出了残差学习（Deep Residual Learning）。在这之前，训练超过几十层的深度网络极其困难：梯度在反向传播时，经过层层相乘，会指数级缩小，到达靠前的层时已经几乎为零——也就是梯度消失问题。

残差连接的解法非常优雅：每一层不再只处理输入，而是处理输入之后，把结果加回输入本身。用公式表示就是：

hₗ = hₗ₋₁ + fₗ₋₁(hₗ₋₁)

这一加，相当于给梯度开了一条"高速公路"——反向传播时，梯度可以沿着恒等映射的路径直通，不被层层变换吞没。这个技巧从CNN迁移到Transformer，成为每一个现代大模型的标配。GPT系列、LLaMA、DeepSeek……无一例外。

Kimi团队的发现是：这根"管道"有一个长期被忽视的副作用。

把残差连接展开看，第l层的隐状态实际上是：

hₗ = h₁ + f₁(h₁) + f₂(h₂) + … + fₗ₋₁(hₗ₋₁)

每一层的输出都以固定权重1累加进来。没有任何机制让某一层说"我现在需要更多第3层的信息"或者"第20层的那个输出跟我的任务关系不大"。所有层平等地叠在一起，权重永远是1。

这就带来了三个问题：

第一，没有选择性。注意力层和MLP层（专家网络）的功能不同，但它们喝的是同一锅汤——同一个累加状态，哪怕不同类型的层可能需要不同权重的历史信息。

第二，信息一旦混入就无法单独取出。第5层的某个有用表示，到了第50层，已经被其余45层的输出稀释掉了。想"回头看"第5层？没有机制。

第三，隐状态的量级随深度线性增长。随着层数增加，累加和越来越大，每个新层的输出相对于这个巨大的累加值越来越微不足道。为了维持影响力，越深的层被迫输出越大的值。这在使用PreNorm（预归一化）的架构里尤其严重，理论上隐状态量级以O(L)增长，L是层数。这个现象被研究者称为"PreNorm稀释"（PreNorm dilution）。

这也解释了一个经验观察：大模型里，相当多的层被剪掉之后，性能损失极小。如果每一层都真的有不可替代的贡献，怎么可能随便裁？

把注意力机制"转90度"

Kimi团队的核心洞察来自一个类比。

RNN（循环神经网络）在序列维度上也有同样的问题：每一步只能看到前一步压缩出来的状态，无法有选择地"回头看"重要的早期信息。2017年，Transformer用注意力机制解决了这个问题——让每个位置可以直接访问所有历史位置，并且用数据驱动的权重来决定关注哪里。

这篇论文说，残差连接在深度维度上面临的，正是RNN在序列维度上面临的同一个问题。既然序列维度的"固定权重循环"可以被注意力取代，为什么深度维度不行？

他们把这个思路直接实现了，叫做Attention Residuals（AttnRes）：

hₗ = α₀→ₗ · h₁ + α₁→ₗ · f₁(h₁) + … + αₗ₋₁→ₗ · fₗ₋₁(hₗ₋₁)

原来权重全是1，现在换成了softmax注意力权重αᵢ→ₗ。这些权重由一个简单机制计算：每一层有一个可学习的"伪查询向量"wₗ，维度就是模型的隐维度d，它对所有前面层的输出打分，经过softmax归一化，得到每一层的权重。

几个关键设计细节值得注意：

查询是层级固定参数，不依赖输入。这意味着同一层对不同输入序列的权重是一样的——这是一个有意的简化，虽然让权重输入依赖（即从当前隐状态投影出查询）能进一步降低Loss（从1.737降到1.731），但会引入额外的参数和推理时的顺序访存开销，所以默认方案选了固定参数。
在键上加RMSNorm。防止某些层因为输出量级特别大而在softmax里占据主导地位。
伪查询向量初始化为零。这意味着训练最开始，所有层的权重是均匀的，AttnRes退化成等权平均，跟标准残差行为相近，不会引入训练不稳定。

关键数字：完整版AttnRes（Full AttnRes）每层只新增一个d维向量wₗ，以及对应的RMSNorm——参数量增加几乎可以忽略不计。

规模化的代价：从Full到Block

理论上，Full AttnRes需要在每一层访问所有前面层的输出。

训练小模型时，这不成问题——前向传播已经需要保存这些激活值用于反向传播，AttnRes只是复用，没有额外内存开销，计算量增加也微乎其微。

但大规模训练时，两个常规手段会改变这一点：

激活重计算（Activation Recomputation）：为了节省显存，前向传播时不保存中间激活，反向传播时重新计算。这样一来，AttnRes需要的那些层输出就要额外保留，内存开销变成O(Ld)——L是层数，d是隐维度。
流水线并行（Pipeline Parallelism）：大模型训练时，不同层分布在不同GPU上。层输出要跨GPU传输，Full AttnRes意味着要传L个激活，通信量O(Ld)，随层数线性增长。

Kimi团队为此设计了Block AttnRes（块注意力残差）：

把L层划分成N个块，块内用标准残差累加，块间才做注意力。每个块被压缩成一个代表向量，跨块的注意力只需要访问N个向量，内存和通信从O(Ld)降到O(Nd)。

实验表明，N≈8（8个块）就能恢复Full AttnRes大部分的增益。在128层的模型里，相当于每16层压成一个块。

这个设计背后还有一套精巧的工程：

跨阶段缓存（Cross-stage Caching）：流水线并行时，每次跨阶段只传增量块（新产生的块），而非全量历史——前面阶段已经传过的块在本地缓存，无需重传。这把通信开销从O(C²)降到O(P²V)，C是总chunks数，P是物理阶段数，V是虚拟阶段数。稳定态时，通信开销可以和计算完全重叠。

两阶段推理策略：推理时，一个块内所有层的"伪查询向量"都是已知的（它们是固定参数，不依赖输入），可以一次性打包做一次矩阵乘法（Phase 1），而不是每层各做一次。只有块内的增量依赖（intra-block attention）需要顺序处理（Phase 2），最后用在线softmax合并两部分结果。这把每层的内存访问从O(L·N)降到接近标准残差的水平。

最终数字：训练开销比标准残差增加不超过4%，推理延迟增加不超过2%。

48B模型，1.4万亿token，实验结果

论文里有三类实验。

Scaling Law实验

5个模型规模（激活参数从194M到528M），每个规模训练三种变体：PreNorm基线、Full AttnRes、Block AttnRes。按照Chinchilla范式拟合幂律曲线：

三者斜率相近，说明AttnRes没有改变scaling的规律，只是整体平移了效率曲线。在5.6 PFLOP/s-days的计算量下，Block AttnRes达到的Loss（1.692），基线需要1.25倍的计算才能达到。换句话说，同等计算量下，Block AttnRes免费获得了约25%的计算等效提升。

消融实验

在16层模型上对关键设计做了对照：

一个重要发现：DenseFormer（让每层访问所有历史层输出，但权重是固定的标量）相比基线毫无提升（1.767 vs 1.766）。这说明**"能访问历史层"本身不够，关键是权重必须是输入依赖的、动态计算的**。固定权重的跨层访问跟没有没有区别。

另一个有意思的发现：多头注意力（让不同通道关注不同历史层）反而比单头更差（1.752 vs 1.746）。这说明最优的深度混合方式在各个通道上是基本一致的——一个层输出有用，它就整体有用，不存在"对某些通道有用、对其他通道没用"这种精细分工。

48B主模型实验

Kimi Linear架构：48B总参数，3B激活参数，27个Transformer块（54层，按注意力层+MLP层各算一层），8个路由专家加1个共享专家的MoE结构。训练数据1.4T token，分两阶段：先1T token预训练，再约400B高质量数据中期训练，最后在32K token长度上继续训练。

Block AttnRes配置：每6层一个块，共9个块加token embedding，10个深度来源。

训练动态上可以看到两个现象：

输出量级：基线模型的各层输出量级随深度单调增长（验证了PreNorm dilution），到靠后的层已经比早期层大了十几倍。Block AttnRes把这个增长限制在每个块内，块间有选择性的聚合会重置这种累积，形成有界的周期性模式。

梯度量级：基线模型最早期的几层梯度异常大，越深越小，分布非常不均匀。Block AttnRes的可学习softmax权重引入了层间的竞争（所有来源的权重加和为1），使梯度分布更均匀。

下游任务评测结果（基线 vs AttnRes）：

全部任务AttnRes均优于或持平基线。提升最大的是GPQA-Diamond（+7.5分），这个benchmark测的是博士级别的科学推理——多步组合推理恰好需要后面的层能回溯访问前面层的特定表示，AttnRes的机制直接命中这个需求。

最优架构向"深而窄"偏移

一个颇有意思的副产品分析：AttnRes改变了最优的模型架构配置。

在固定FLOPs（≈6.5×10¹⁹）和固定参数量（≈2.3×10⁸）下，研究者扫描了25种架构配置，横轴是dmodel/Lb（模型宽度相对深度的比值），纵轴是H/Lb（注意力头数相对深度的比值）。

基线模型的最优点在dmodel/Lb≈60（1.847 Loss）。AttnRes的最优点偏移到了dmodel/Lb≈45（1.802 Loss）。

在固定参数量下，dmodel/Lb更小意味着：每层的宽度更窄，但层数更多——也就是更深更窄的网络。

这说明AttnRes能更有效地利用深度。从部署角度看，更深的模型推理延迟更高（层是顺序计算的），所以这个发现并不直接给出"应该用更深的模型"的建议，而是说明了AttnRes在什么维度上最受益。

它学会了什么样的跨层模式

论文可视化了每一层实际学出来的注意力权重（αᵢ→ₗ），结果有三个值得关注的规律：

局部性主导，但有显式跳跃连接。每一层主要关注它的直接前驱（对角线上权重最高），这和标准残差的行为一致——但除此之外，有些层对更早的来源有明显的非零权重，相当于模型自己学出了跳过若干层的"快捷路径"，完全由数据驱动。

嵌入层的持续影响。token embedding（第0个来源）在很多层都有相当的权重，尤其是在注意力层之前。这意味着模型倾向于保持对原始词表示的直接访问，而不仅仅依赖层层变换之后的压缩状态。

注意力层和MLP层有不同偏好。注意力层之前的输入显示出更宽的感受野（关注更多不同深度的来源），MLP层之前的输入则更集中于最近的几层。这跟人们对这两类子层功能的直觉一致：注意力负责跨层路由信息，MLP在局部做变换。

Block AttnRes的权重可视化保留了上述所有模式，只是在块级别上更粗粒度、更集中——块间的压缩起到了隐式正则化的效果。

论文地址：

https://arxiv.org/pdf/2603.15031

END

本文来自至顶AI实验室，一个专注于对AI计算机、工作站及各类AI相关硬件设备，开展基于真实使用场景评测的研究机构。

Q&A

Q1：Attention Residuals跟普通残差连接的根本区别在哪里？

标准残差是把所有历史层的输出以固定权重1全部加起来。AttnRes用softmax注意力代替这个固定权重，让每一层通过一个可学习的"查询向量"，根据内容动态决定从历史层的哪里取多少信息。关键差别在于：前者没有选择，后者有选择；前者权重固定，后者权重是数据驱动的。实验表明，仅仅让每层"能看到"历史层但用固定权重（如DenseFormer），对性能毫无帮助——动态权重才是核心。

Q2：Block AttnRes在实际部署中的开销是多少？

训练阶段，在不开流水线并行时，额外开销可忽略不计；开流水线并行时，端到端开销不超过4%。推理阶段，延迟增加不超过2%。内存方面，每token只需缓存约8个额外向量（对应8个块），极低。参数量增加几乎为零（每层一个d维向量和一个RMSNorm），完全是一个可以无缝替换标准残差的drop-in方案。

Q3：这个工作的最大意义是什么？

它指向的是一种更普遍的模式：注意力机制最初是为序列维度设计的，逐渐被扩展到图像的空间维度、多模态对齐……现在是神经网络的深度维度。每次这样的扩展，本质上都是把一个固定操作替换成了有选择性的、数据驱动的操作。这篇论文表明，残差连接这个自2015年以来几乎未被触碰的基础组件，在深度维度上同样有空间做这个替换——而且做了确实有效，而且效果相当明显。如果这种增益在更多架构上被复现，"注意力残差"很可能成为下一代大模型的默认配置。

PreNorm 根本性注意力状态脚手架团队输出模型问题 Kimi 权重残差

上一篇：中恒建设取得房建结构用的预应力混凝土梁连接结构专利，提升混凝土梁与混凝土柱之间连接的可靠性

下一篇：沙基姆环保取得防水UV固化涂料专利

用了十年的神经网络“脚手架”，Kimi团队说它有根本性缺陷

相关内容

热门资讯