什么是 Transformer？｜AI 入门指北

Q: 什么是 Transformer？

Transformer 是 2017 年提出的神经网络架构，是几乎所有大模型的基础，它靠'注意力机制'理解词与词之间的关系。

Transformer 是 2017 年谷歌团队提出的一种神经网络架构，几乎所有现代大模型（GPT、Claude、Gemini、DeepSeek）都基于它——它的核心创新是"注意力机制"，让 AI 能理解一段话中每个词对其他词的影响。

为什么它这么重要？

2017 年之前，AI 处理语言主要靠 RNN（循环神经网络），就像人阅读文章——一个字一个字按顺序读，读到第 100 个字时已经"模糊"记得第 1 个字。Transformer 用注意力机制突破了这个限制：不管句子多长，它可以同时"看"所有词，并计算每个词跟其他所有词的关联程度——哪个词更重要，就给它更多"注意力"。

一个类比

读"小明把苹果给了小红，因为她很喜欢吃"，人类一眼能知道"她"指的是小红。Transformer 的注意力机制让 AI 也能建立这种"词与词之间的关联"——不管"她"和"小红"隔了多少字。这在翻译、摘要、问答等任务里极为关键。

这个名字的由来

论文标题叫《Attention Is All You Need》（注意力就是你所需要的一切），刷新了当时所有语言任务的成绩。"Transformer"这个名字源于它"变换"输入表示的能力，也借用了变形金刚的英文名。

常见误解

"Transformer 是 OpenAI 发明的"——不是，是谷歌大脑团队在 2017 年提出的，OpenAI 后来基于它开发了 GPT 系列。
"Transformer 只用于文字"——图像（Vision Transformer）、音频、视频处理也都在广泛应用 Transformer 架构。

什么是 Transformer？

为什么它这么重要？

一个类比

这个名字的由来

常见误解

相关名词