五一五更之二：注意力机制的起源与发展

注意力机制的起源与发展

注意力是我们人类特有的功能之一，这半年读周岭老师的《认知觉醒》、《认知驱动》时候对注意力这个词产生了很深的印象。

人类情绪和能力的优劣差异来自于对自身注意力关注方式的差异。注意力是一种深度沉浸的能力，从大范围看，沉浸能力强的人时常处于支配层，沉浸能力弱的人时常处于被支配层。

在聚精会神的状态下，人类大脑的前额叶皮层就会自动沿着神经通路传递信号，这些信息会奔向与我们思考内容相关的各个脑区，将它们连起来。

海量的数据训练本身就是一个刻意练习的过程，如果在刻意练习的同时，将人类的注意力机制赋予到机器身上，是不是可以也让机器变得更加聪明、专注呢？这就是本文主要想要说明的一个问题，特别是当机器被用在处理语言和视觉的问题上。

Attention的本质就是在计算Token之间的Correlation。

深度学习中注意力的本质

注意力机制允许模型在处理信息时模仿人类认知系统，有选择地聚焦于输入数据的相关部分，从而做出更精准的预测或生成更相关的输出。这一机制的引入，极大地克服了早期模型在处理长序列数据时信息丢失或稀释的局限性。注意力机制的广泛应用遍及自然语言处理（NLP）（如机器翻译、文本摘要、问答系统）、计算机视觉（CV）（如图像描述、目标检测）以及语音识别等多个领域。

在注意力机制出现之前，主流的编码器-解码器架构通常试图将整个输入序列的所有信息压缩到一个固定长度的向量中，但是这种做法在处理长序列时尤为捉襟见肘，关键信息的丢失无法难免(最终有用的信息会溢出丢失)。注意力机制通过允许解码器在生成输出的每一步“回顾”并动态地关注输入序列的不同部分，直接解决了这一瓶颈问题。这不仅仅是性能上的提升，更是神经网络内部信息流动范式的一次革新。

注意力机制的目标就是关注必要信息，根据该信息进行时序转换。

起初：Seq2Seq中的早期萌芽

https://arxiv.org/pdf/1606.01933

https://arxiv.org/pdf/1702.00887

https://arxiv.org/pdf/1409.0473

神经机器翻译(Neural Machine Translation, NMT)中遇到的信息瓶颈问题是Attention机制出现的Motivation

Attention机制出现之前，传统的编码器-解码器(Encoder-Decoder)架构在处理序列到序列(Sequence-to-Sequence, Seq2Seq)任务，尤其是神经机器翻译(Neural Machine Translation, NMT)时，面临着一个核心挑战：信息瓶颈问题。

编码器负责将整个文本(源语言句子)作为输入序列压缩成一个固定长度的上下文向量(context vector)，解码器则基于这个固定长度的上下文向量生成输出序列。当输入序列较长时，固定长度的上下文向量难以承载全部重要信息，导致信息丢失，进而影响模型性能，特别是在翻译长句时尤为明显。

编码-解码架构的改进

对编码器的改进：

注意力机制出现之前都是只将LSTM层的最后隐藏状态传递给解码器，但是编码器的输出长度应该根据文本的长度相应地改变，而不是死板地只输出一个固定长度的向量。编码器输入序列长度为n，那么经过编码器输出的隐藏状态向量大小应该为n*k(n为序列中的单词数量，k为单个单词嵌入的维度)。也就是说，编码器会输出各个单词对应的LSTM层的隐藏状态向量。

对解码器的改进：

不在使用编码器“最后”时刻的隐藏状态作为初始化，而是使用改进后的n*k隐藏状态大小的向量作为解码器的输入。从编码器的n*k隐藏状态向量中选出与各个时刻解码器输出的单词有对应关系的单词向量，完成信息对齐。
使用向量内积方法计算解码器隐藏状态向量1*k在多大程度上和编码器n*k各个单词向量“相似”。

Bahdanau注意力(加性注意力，2014)

《Neural Machine Translation by Jointly Learning to Align and Translate》

Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio在2014年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次引入了注意力机制，旨在解决上述瓶颈问题。

核心思想：允许解码器生成目标词的时候，能够“有选择地”关注原序列的不同部分，而不是单纯依赖一个固定长度的上下文向量，这种机制是学习一种源序列到目标序列的“对齐”(alignment)。

破晓：Transformer的革命

Attention Is All You Need

2017年，由Google研究人员发表的论文《Attention Is All You Need》引入了Transformer模型，这标志着深度学习领域，尤其是自然语言处理领域的一次范式转换。Transformer模型完全摒弃了以往序列处理中占主导地位的循环神经网络(RNN)和卷积神经网络(CNN)结构，而完全依赖于注意力机制来捕捉输入和输出之间的全局依赖关系 。

传统的RNN（包括LSTM和GRU等变体）在处理序列数据时，其固有的顺序计算特性导致了几个主要瓶颈：

并行计算受限：RNN按时间步顺序处理数据，使得在序列长度维度上的并行化变得困难，这限制了在现代GPU等并行计算设备上的训练效率。
长距离依赖学习困难：尽管LSTM等结构通过门控机制缓解了梯度消失/爆炸问题，但信息在长序列中逐级传递时，仍可能发生衰减或失真，导致模型难以有效捕捉远距离词语之间的依赖关系。信息从序列一端到另一端的路径长度随序列长度线性增长。

Transformer的核心思想正是为了克服这些限制。

自注意力机制 - Self Attention

自注意力机制是Transformer模型的核心(主要用于Encoder中)。它允许模型在处理序列中的每个元素（例如，句子中的一个词）时，同时关注序列中的所有其他元素，从而计算该元素的上下文感知表示。

掩码注意力机制 - Masked Attention

掩码注意力机制是是Transformer模型的另一核心模块(主要用于Decoder中)，它允许模型在处理序列中的元素时，只关注序列中当前单词及之前出现过的单词，对序列中当前单词之后的信息全部mask掉。

多头注意力机制 - Multi-Head Attention

为了进一步增强自注意力机制的表达能力，Transformer引入了多头注意力机制。多头注意力机制使得模型支持并行计算，极大地提高了模型的训练效率。

然而，尽管Transformer带来了革命性的进步，其核心的完全自注意力机制也引入了新的挑战：计算和内存复杂度均与序列长度成二次方关系 $(O(N^2)$ 。这在处理极长序列时会变得非常昂贵，从而催生了下一阶段对注意力机制效率优化的研究浪潮。

革新：DeepSeek-V3 中的多头隐注意力（MLA）

随着大型语言模型（LLM）的参数规模和所需处理的上下文长度持续增长，对推理效率和训练经济性的要求也日益严苛。DeepSeek系列模型，特别是DeepSeek-V2 和DeepSeek-V3 ，引入了多头隐注意力(Multi-head Latent Attention, MLA)机制，作为其在注意力架构上的一项关键创新，旨在实现高效推理和经济的训练。

后续详细内容请跳转到文章：五一五更之五：《手撸DeepSeek-V3-R1》

Reference

人工智能与深度学习

#深度学习

五一五更之二：注意力机制的起源与发展

http://example.com/2025/05/02/五一五更之二：注意力机制的起源与发展/

作者

Munger Yang

发布于

2025年5月2日

许可协议

五一五更之三：动手学BERT 上一篇

五一五更之一：2025年4月总结与展望下一篇