什么是 Transformer?
Transformer 是 2017 年谷歌团队提出的一种神经网络架构,几乎所有现代大模型(GPT、Claude、Gemini、DeepSeek)都基于它——它的核心创新是"注意力机制",让 AI 能理解一段话中每个词对其他词的影响。
为什么它这么重要?
2017 年之前,AI 处理语言主要靠 RNN(循环神经网络),就像人阅读文章——一个字一个字按顺序读,读到第 100 个字时已经"模糊"记得第 1 个字。Transformer 用注意力机制突破了这个限制:不管句子多长,它可以同时"看"所有词,并计算每个词跟其他所有词的关联程度——哪个词更重要,就给它更多"注意力"。
一个类比
读"小明把苹果给了小红,因为她很喜欢吃",人类一眼能知道"她"指的是小红。Transformer 的注意力机制让 AI 也能建立这种"词与词之间的关联"——不管"她"和"小红"隔了多少字。这在翻译、摘要、问答等任务里极为关键。
这个名字的由来
论文标题叫《Attention Is All You Need》(注意力就是你所需要的一切),刷新了当时所有语言任务的成绩。"Transformer"这个名字源于它"变换"输入表示的能力,也借用了变形金刚的英文名。
常见误解
- "Transformer 是 OpenAI 发明的"——不是,是谷歌大脑团队在 2017 年提出的,OpenAI 后来基于它开发了 GPT 系列。
- "Transformer 只用于文字"——图像(Vision Transformer)、音频、视频处理也都在广泛应用 Transformer 架构。