Transformer 相比CNN和RNN有啥优势？

2025-12-26 | 0 评论 | 0 浏览

一句话结论

**Transformer 的核心优势不是“Attention”，而是：

用全局依赖 + 高并行，解决了 CNN 看不远、RNN 跑不快的问题。**

维度	CNN	RNN / LSTM	Transformer
依赖建模	局部	顺序依赖	全局依赖
并行能力	高	低	极高
长距离依赖	差	有但会衰减	强
训练速度	快	慢	快（GPU 友好）
表达能力	位置敏感	时序强	语义关系强

👉 Transformer：

📌 面试金句：

CNN 的感受野是“堆出来的”，Transformer 的感受野是“天生的”。

👉 Transformer：

📌 面试金句：

RNN 的瓶颈在时间轴，Transformer 直接把时间轴“拍平”。

👉 每个 token 都能“选择”关注谁

这不是偶然，是工程 + 数学的必然结果：

👉 同一套 Attention + FFN

📌 CNN / RNN 在大规模下都遇到瓶颈

📌 Transformer 越堆越强

❌ 计算复杂度高

👉 所以后来才有：

CNN 擅长局部模式，

RNN 擅长顺序建模但难并行，

Transformer 用 Attention 把“全局依赖 + 并行计算”一次性解决，

是第一个真正适合大规模训练的通用序列建模架构。

标题：Transformer 相比CNN和RNN有啥优势？
作者：guobing
地址：http://www.guobingwei.tech/articles/2025/12/26/1766736619228.html