AI 入门指北

什么是 token?

token 是大模型读写文字时的最小单位,可以粗略理解为"字词碎片"——AI 服务通常按 token 数量计费。

用一个类比理解

大模型不是一个字一个字地读文章,而是把文字切成一块块的"积木"再处理,每块积木就是一个 token。中文里一个汉字通常是 1~2 个 token,英文里一个单词可能是 1 个或几个 token。

为什么你需要关心它?

  1. 花钱按它算:用 AI 的 API(程序接口)时,账单就是按"输入了多少 token + 输出了多少 token"来计算的。
  2. AI 的记性按它算:常说的"上下文窗口 128K",意思是 AI 一次最多能记住 12.8 万个 token 的内容,超出就会"忘掉"前面的话。

大概是什么量级?

一篇 1000 字的中文文章约 1000~2000 个 token。主流模型的价格通常是每 100 万 token 几块到几十块人民币,所以日常聊天的成本其实非常低。

常见误解

  • "1 token = 1 个字"——不一定,不同语言、不同模型的切法不同。
  • "token 越多越好"——输入太长反而可能让 AI 抓不住重点,又贵又慢。

相关名词

什么是大模型? · 什么是上下文窗口?