Transformer 原理通俗讲解

2025-12-23 | 0 评论 | 0 浏览

核心思路：用“注意力”计算序列内各位置间的相关性，替代 RNN/CNN 的逐步传递，便于并行、捕捉长依赖。
输入层：把词/子词转成向量（Embedding），加上位置编码（Positional Encoding）告诉模型顺序。
典型堆叠：几十到上百层（小模型 6–12 层，大模型几十到几百层），每层结构几乎相同。
单层结构（Encoder/Decoder 的基本块）：
多头自注意力（Multi-Head Self-Attention）：并行算多组注意力，抓不同类型/范围的关联；Decoder 的自注意力带 Mask，避免看见未来。
残差 + LayerNorm：保持梯度稳定，加速训练。
前馈网络（Feed-Forward / MLP）：对每个位置单独做非线性变换，提升表示能力。
Decoder 额外的“交叉注意力”（Cross-Attention）：在序列到序列场景里，用来关注 Encoder 输出（翻译、对话等）。
输出层：线性映射 + Softmax 生成下一个 token 概率，按自回归方式一步步生成。

一句话：Embedding + 位置编码 → N 层（多头自注意力 + 残差 + LayerNorm + 前馈）堆叠；若是序列到序列，再在 Decoder 加交叉注意力；用注意力权重决定“当前要看谁”，多头并行看不同关系，层数越深，语义抽象越强。

标题：Transformer 原理通俗讲解
作者：guobing
地址：http://www.guobingwei.tech/articles/2025/12/23/1766471978859.html