通俗理解 Transformer

ChatGPT、Claude、Gemini……这些 AI 产品背后都有一个共同的核心架构——Transformer。这篇文章用最通俗的方式，帮你搞懂它到底是什么。

先讲个故事

假设你在读一句话：

“小明把苹果递给小红，因为她饿了。”

你一下就知道”她”指的是小红，因为”饿了”跟”接苹果”更相关。但对计算机来说，”她”可以指小明（如果小明是女性）也可以指小红。

Transformer 的核心能力，就是让计算机也能像你一样，理解一句话里每个词和其他词之间的关系。

在 Transformer 出现之前（2017 年以前），处理语言的主流方法是 RNN（循环神经网络）。你可以把 RNN 想象成一个人从左到右、一个字一个字地读文章：

1	我 → 今 → 天 → 很 → 开 → 心

这有一个致命问题：读到后面，前面的内容就记不清了。就像你读一本 500 页的小说，读到最后一章时，第一章的细节早就模糊了。

而且，因为是一个字一个字读的，所以没法并行处理，速度很慢。

Transformer 换了一个思路：不再一个字一个字读，而是一次看完整句话，同时计算每个词和所有其他词之间的关系。

这就是大名鼎鼎的 “注意力机制”（Attention）。

想象你走进一个房间，房间里有 10 个人在说话。你的大脑不会平均分配注意力，而是：

Transformer 做的事情一模一样：对于句子中的每一个词，它会计算这个词应该对其他词”投入多少注意力”。

回到刚才那句话：

“小明把苹果递给小红，因为她饿了。”

当 Transformer 处理到”她”这个字时，会给每个词打一个分数：

因为”小红”与”她”最相关，所以分数最高。就这么简单——本质上，Self-Attention 就是一个自动分配注意力的打分系统。

Transformer 的架构其实像一个翻译流水线，分为两大部分：

1	输入 → [编码器 Encoder] → 中间表示 → [解码器 Decoder] → 输出

打个比方：

💡 像 ChatGPT、Claude 这类对话模型，实际上只用了解码器部分（GPT 中的 G 就是 Generative，生成式的意思）。而 BERT 只用了编码器部分。

每一层编码器包含两个核心组件：

“多头”是什么意思？就像看一幅画，一个人关注构图，一个人关注色彩，一个人关注光影——多个”注意力头”各自关注不同的语义关系，最后把各自的理解合在一起。

如果你看过技术文章，一定见过 Query、Key、Value 这三个概念。别被吓到，它其实就是一个搜索引擎的工作方式：

工作流程：

就好比你搜索”苹果手机评测”（Query），搜索引擎拿它和所有网页的关键词（Key）匹配，找到最相关的几个，然后把这些网页的内容（Value）按相关度汇总给你。

前面说 Transformer 是一次看完整句话，但这带来一个新问题：”我喜欢你”和”你喜欢我”意思完全不同，词的顺序很重要。

Transformer 的解决方案：给每个词加上一个位置编码（Positional Encoding），相当于给每个词贴上”我是第几个词”的标签。这样即使是同时处理，模型也知道词的先后顺序。

总结一下 Transformer 相比前辈的优势：