用了十年的神经网络“脚手架”,Kimi团队说它有根本性缺陷
创始人
2026-03-28 02:48:52
0

2026年3月16日,月之暗面发布了一篇技术报告,题目叫《Attention Residuals》(注意力残差)。报告不长,不到20页,但它挑战的是一个已经沿用十年、被写进几乎所有现代大模型的基础组件——残差连接(Residual Connection)。

月之暗面近年来在架构层面动作频繁。他们发布了Kimi Linear(一种混合线性注意力架构)、Kimi K2(32B激活参数的开源MoE模型)、以及在FAST 2025拿下最佳论文的KV存储系统Mooncake。这篇Attention Residuals报告延续了这种风格:不在应用层卷,去碰那些大家认为已经"解决了"的底层问题。Kimi创始人杨植麟曾公开表示,他们的目标是改掉AI领域"八九年前的老标准",包括优化器、注意力架构——现在又加上了残差连接。

这篇报告发出后,收到了来自Andrej Karpathy等人的关注。更奇特的是,一个据说17岁的研究者写了一篇相关解读帖,被Elon Musk转发点赞。

十年没人动过的那根"管道"

要理解这篇论文在说什么,得先想清楚残差连接到底是什么。

2015年,微软研究院的何恺明提出了残差学习(Deep Residual Learning)。在这之前,训练超过几十层的深度网络极其困难:梯度在反向传播时,经过层层相乘,会指数级缩小,到达靠前的层时已经几乎为零——也就是梯度消失问题。

残差连接的解法非常优雅:每一层不再只处理输入,而是处理输入之后,把结果加回输入本身。用公式表示就是:

hₗ = hₗ₋₁ + fₗ₋₁(hₗ₋₁)

这一加,相当于给梯度开了一条"高速公路"——反向传播时,梯度可以沿着恒等映射的路径直通,不被层层变换吞没。这个技巧从CNN迁移到Transformer,成为每一个现代大模型的标配。GPT系列、LLaMA、DeepSeek……无一例外。

Kimi团队的发现是:这根"管道"有一个长期被忽视的副作用。

把残差连接展开看,第l层的隐状态实际上是:

hₗ = h₁ + f₁(h₁) + f₂(h₂) + … + fₗ₋₁(hₗ₋₁)

每一层的输出都以固定权重1累加进来。没有任何机制让某一层说"我现在需要更多第3层的信息"或者"第20层的那个输出跟我的任务关系不大"。所有层平等地叠在一起,权重永远是1。

这就带来了三个问题:

第一,没有选择性。注意力层和MLP层(专家网络)的功能不同,但它们喝的是同一锅汤——同一个累加状态,哪怕不同类型的层可能需要不同权重的历史信息。

第二,信息一旦混入就无法单独取出。第5层的某个有用表示,到了第50层,已经被其余45层的输出稀释掉了。想"回头看"第5层?没有机制。

第三,隐状态的量级随深度线性增长。随着层数增加,累加和越来越大,每个新层的输出相对于这个巨大的累加值越来越微不足道。为了维持影响力,越深的层被迫输出越大的值。这在使用PreNorm(预归一化)的架构里尤其严重,理论上隐状态量级以O(L)增长,L是层数。这个现象被研究者称为"PreNorm稀释"(PreNorm dilution)。

这也解释了一个经验观察:大模型里,相当多的层被剪掉之后,性能损失极小。如果每一层都真的有不可替代的贡献,怎么可能随便裁?

把注意力机制"转90度"

Kimi团队的核心洞察来自一个类比。

RNN(循环神经网络)在序列维度上也有同样的问题:每一步只能看到前一步压缩出来的状态,无法有选择地"回头看"重要的早期信息。2017年,Transformer用注意力机制解决了这个问题——让每个位置可以直接访问所有历史位置,并且用数据驱动的权重来决定关注哪里。

这篇论文说,残差连接在深度维度上面临的,正是RNN在序列维度上面临的同一个问题。既然序列维度的"固定权重循环"可以被注意力取代,为什么深度维度不行?

他们把这个思路直接实现了,叫做Attention Residuals(AttnRes)

hₗ = α₀→ₗ · h₁ + α₁→ₗ · f₁(h₁) + … + αₗ₋₁→ₗ · fₗ₋₁(hₗ₋₁)

原来权重全是1,现在换成了softmax注意力权重αᵢ→ₗ。这些权重由一个简单机制计算:每一层有一个可学习的"伪查询向量"wₗ,维度就是模型的隐维度d,它对所有前面层的输出打分,经过softmax归一化,得到每一层的权重。

几个关键设计细节值得注意:

  • 查询是层级固定参数,不依赖输入。这意味着同一层对不同输入序列的权重是一样的——这是一个有意的简化,虽然让权重输入依赖(即从当前隐状态投影出查询)能进一步降低Loss(从1.737降到1.731),但会引入额外的参数和推理时的顺序访存开销,所以默认方案选了固定参数。

  • 在键上加RMSNorm。防止某些层因为输出量级特别大而在softmax里占据主导地位。

  • 伪查询向量初始化为零。这意味着训练最开始,所有层的权重是均匀的,AttnRes退化成等权平均,跟标准残差行为相近,不会引入训练不稳定。

关键数字:完整版AttnRes(Full AttnRes)每层只新增一个d维向量wₗ,以及对应的RMSNorm——参数量增加几乎可以忽略不计。

规模化的代价:从Full到Block

理论上,Full AttnRes需要在每一层访问所有前面层的输出。

训练小模型时,这不成问题——前向传播已经需要保存这些激活值用于反向传播,AttnRes只是复用,没有额外内存开销,计算量增加也微乎其微。

但大规模训练时,两个常规手段会改变这一点:

  1. 激活重计算(Activation Recomputation):为了节省显存,前向传播时不保存中间激活,反向传播时重新计算。这样一来,AttnRes需要的那些层输出就要额外保留,内存开销变成O(Ld)——L是层数,d是隐维度。

  2. 流水线并行(Pipeline Parallelism):大模型训练时,不同层分布在不同GPU上。层输出要跨GPU传输,Full AttnRes意味着要传L个激活,通信量O(Ld),随层数线性增长。

Kimi团队为此设计了Block AttnRes(块注意力残差)

把L层划分成N个块,块内用标准残差累加,块间才做注意力。每个块被压缩成一个代表向量,跨块的注意力只需要访问N个向量,内存和通信从O(Ld)降到O(Nd)

实验表明,N≈8(8个块)就能恢复Full AttnRes大部分的增益。在128层的模型里,相当于每16层压成一个块。

这个设计背后还有一套精巧的工程:

跨阶段缓存(Cross-stage Caching):流水线并行时,每次跨阶段只传增量块(新产生的块),而非全量历史——前面阶段已经传过的块在本地缓存,无需重传。这把通信开销从O(C²)降到O(P²V),C是总chunks数,P是物理阶段数,V是虚拟阶段数。稳定态时,通信开销可以和计算完全重叠。

两阶段推理策略:推理时,一个块内所有层的"伪查询向量"都是已知的(它们是固定参数,不依赖输入),可以一次性打包做一次矩阵乘法(Phase 1),而不是每层各做一次。只有块内的增量依赖(intra-block attention)需要顺序处理(Phase 2),最后用在线softmax合并两部分结果。这把每层的内存访问从O(L·N)降到接近标准残差的水平。

最终数字:训练开销比标准残差增加不超过4%,推理延迟增加不超过2%。

48B模型,1.4万亿token,实验结果

论文里有三类实验。

Scaling Law实验

5个模型规模(激活参数从194M到528M),每个规模训练三种变体:PreNorm基线、Full AttnRes、Block AttnRes。按照Chinchilla范式拟合幂律曲线:

    三者斜率相近,说明AttnRes没有改变scaling的规律,只是整体平移了效率曲线。在5.6 PFLOP/s-days的计算量下,Block AttnRes达到的Loss(1.692),基线需要1.25倍的计算才能达到。换句话说,同等计算量下,Block AttnRes免费获得了约25%的计算等效提升

    消融实验

    在16层模型上对关键设计做了对照:

    一个重要发现:DenseFormer(让每层访问所有历史层输出,但权重是固定的标量)相比基线毫无提升(1.767 vs 1.766)。这说明**"能访问历史层"本身不够,关键是权重必须是输入依赖的、动态计算的**。固定权重的跨层访问跟没有没有区别。

    另一个有意思的发现:多头注意力(让不同通道关注不同历史层)反而比单头更差(1.752 vs 1.746)。这说明最优的深度混合方式在各个通道上是基本一致的——一个层输出有用,它就整体有用,不存在"对某些通道有用、对其他通道没用"这种精细分工。

    48B主模型实验

    Kimi Linear架构:48B总参数,3B激活参数,27个Transformer块(54层,按注意力层+MLP层各算一层),8个路由专家加1个共享专家的MoE结构。训练数据1.4T token,分两阶段:先1T token预训练,再约400B高质量数据中期训练,最后在32K token长度上继续训练。

    Block AttnRes配置:每6层一个块,共9个块加token embedding,10个深度来源。

    训练动态上可以看到两个现象:

    输出量级:基线模型的各层输出量级随深度单调增长(验证了PreNorm dilution),到靠后的层已经比早期层大了十几倍。Block AttnRes把这个增长限制在每个块内,块间有选择性的聚合会重置这种累积,形成有界的周期性模式。

    梯度量级:基线模型最早期的几层梯度异常大,越深越小,分布非常不均匀。Block AttnRes的可学习softmax权重引入了层间的竞争(所有来源的权重加和为1),使梯度分布更均匀。

    下游任务评测结果(基线 vs AttnRes):

    全部任务AttnRes均优于或持平基线。提升最大的是GPQA-Diamond(+7.5分),这个benchmark测的是博士级别的科学推理——多步组合推理恰好需要后面的层能回溯访问前面层的特定表示,AttnRes的机制直接命中这个需求。

    最优架构向"深而窄"偏移

    一个颇有意思的副产品分析:AttnRes改变了最优的模型架构配置。

    在固定FLOPs(≈6.5×10¹⁹)和固定参数量(≈2.3×10⁸)下,研究者扫描了25种架构配置,横轴是dmodel/Lb(模型宽度相对深度的比值),纵轴是H/Lb(注意力头数相对深度的比值)。

    基线模型的最优点在dmodel/Lb≈60(1.847 Loss)。AttnRes的最优点偏移到了dmodel/Lb≈45(1.802 Loss)。

    在固定参数量下,dmodel/Lb更小意味着:每层的宽度更窄,但层数更多——也就是更深更窄的网络。

    这说明AttnRes能更有效地利用深度。从部署角度看,更深的模型推理延迟更高(层是顺序计算的),所以这个发现并不直接给出"应该用更深的模型"的建议,而是说明了AttnRes在什么维度上最受益。

    它学会了什么样的跨层模式

    论文可视化了每一层实际学出来的注意力权重(αᵢ→ₗ),结果有三个值得关注的规律:

    局部性主导,但有显式跳跃连接。每一层主要关注它的直接前驱(对角线上权重最高),这和标准残差的行为一致——但除此之外,有些层对更早的来源有明显的非零权重,相当于模型自己学出了跳过若干层的"快捷路径",完全由数据驱动。

    嵌入层的持续影响。token embedding(第0个来源)在很多层都有相当的权重,尤其是在注意力层之前。这意味着模型倾向于保持对原始词表示的直接访问,而不仅仅依赖层层变换之后的压缩状态。

    注意力层和MLP层有不同偏好。注意力层之前的输入显示出更宽的感受野(关注更多不同深度的来源),MLP层之前的输入则更集中于最近的几层。这跟人们对这两类子层功能的直觉一致:注意力负责跨层路由信息,MLP在局部做变换。

    Block AttnRes的权重可视化保留了上述所有模式,只是在块级别上更粗粒度、更集中——块间的压缩起到了隐式正则化的效果。

    论文地址:

    https://arxiv.org/pdf/2603.15031

    END

    本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。

    Q&A

    Q1:Attention Residuals跟普通残差连接的根本区别在哪里?

    标准残差是把所有历史层的输出以固定权重1全部加起来。AttnRes用softmax注意力代替这个固定权重,让每一层通过一个可学习的"查询向量",根据内容动态决定从历史层的哪里取多少信息。关键差别在于:前者没有选择,后者有选择;前者权重固定,后者权重是数据驱动的。实验表明,仅仅让每层"能看到"历史层但用固定权重(如DenseFormer),对性能毫无帮助——动态权重才是核心。

    Q2:Block AttnRes在实际部署中的开销是多少?

    训练阶段,在不开流水线并行时,额外开销可忽略不计;开流水线并行时,端到端开销不超过4%。推理阶段,延迟增加不超过2%。内存方面,每token只需缓存约8个额外向量(对应8个块),极低。参数量增加几乎为零(每层一个d维向量和一个RMSNorm),完全是一个可以无缝替换标准残差的drop-in方案。

    Q3:这个工作的最大意义是什么?

    它指向的是一种更普遍的模式:注意力机制最初是为序列维度设计的,逐渐被扩展到图像的空间维度、多模态对齐……现在是神经网络的深度维度。每次这样的扩展,本质上都是把一个固定操作替换成了有选择性的、数据驱动的操作。这篇论文表明,残差连接这个自2015年以来几乎未被触碰的基础组件,在深度维度上同样有空间做这个替换——而且做了确实有效,而且效果相当明显。如果这种增益在更多架构上被复现,"注意力残差"很可能成为下一代大模型的默认配置。

    相关内容

    易鼎行热镀锌全钢主龙骨淘汰...
    易鼎行全钢主龙骨在建筑模架领域正逐步替代传统φ48圆管,具备轻量化...
    2026-03-28 03:12:23
    科顺股份中标:05中国核建...
    证券之星消息,根据天眼查APP-财产线索数据整理,根据中国核工业建...
    2026-03-28 03:11:49
    漫谈衣帽间定制生产、设计公...
    在当今追求个性化与高品质生活的时代,衣帽间作为家居空间中极为重要的...
    2026-03-28 03:09:12
    【新书架】新书推荐(202...
    周五新书架 《且上书楼:藏书楼里的中华文脉》 G259.29/1...
    2026-03-28 03:07:11
    原创 ...
    2026年3月,国际金价上演了一幕让人心脏跟着狂跳的“惊魂剧”,短...
    2026-03-28 03:06:33

    热门资讯

    科顺股份中标:05中国核建中核... 证券之星消息,根据天眼查APP-财产线索数据整理,根据中国核工业建设股份有限公司3月24日发布的《0...
    搜狐焦点家居探展广州定制展 |... 2026年3月27日,第15届广州定制家居展暨轻高定展在广州保利世贸博览馆盛大启幕,作为定制家居行业...
    股票行情快报:匠心家居(301... 证券之星消息,截至2026年3月27日收盘,匠心家居(301061)报收于74.51元,上涨0.43...
    2026门窗十大品牌谁更值?佳... 装修圈有句老话:买门窗,不怕花钱,就怕花了钱还不值。 什么是“值”?不是价格最低,也不是名气最大,而...
    2026门窗十大品牌新格局,佳... 2026年的门窗行业,正在经历一场前所未有的洗牌。 据中国建筑金属结构协会最新发布的数据,2026年...
    华峰铝业申请耐腐蚀铝合金复合板... 国家知识产权局信息显示,上海华峰铝业股份有限公司申请一项名为“一种铝合金复合板材及一种耐腐蚀铝合金复...
    股票行情快报:坚朗五金(002... 证券之星消息,截至2026年3月27日收盘,坚朗五金(002791)报收于20.37元,上涨0.59...
    沙基姆环保取得防水UV固化涂料... 国家知识产权局信息显示,广东省沙基姆环保新材料有限公司取得一项名为“一种防水UV固化涂料及其制备方法...