AI 入门指北AI · 说人话

什么是模型蒸馏？

模型蒸馏（Model Distillation）是一种"压缩"AI 的技术：让大模型（教师）先生成答案，再用这些答案训练小模型（学生），让小模型在消耗少得多的算力下，拥有接近大模型的能力。

用一个类比理解

假设你想学炒菜，有两种方法：一是读厚厚的食谱书（从头训练），二是直接跟着一位大厨在旁边学（蒸馏）。大厨边炒边讲"火候要这样、这一步为什么"，学生比自己啃书效率高得多。蒸馏就是用大模型的"软输出"（不只告诉你答案，还告诉你每个答案的概率分布）来训练小模型，信息量比硬标签更丰富。

蒸馏解决了什么问题？

顶级大模型通常有几百亿甚至更多参数，在手机、边缘设备或低算力服务器上根本跑不动。蒸馏后的小模型参数量缩小十倍甚至百倍，可以在普通 GPU 甚至 CPU 上运行，大幅降低部署门槛和成本。

现实中的例子

DeepSeek-R1 发布时附带了多个蒸馏版本（1.5B、7B、14B），让普通用户用个人电脑就能体验
苹果、华为把蒸馏小模型直接放进手机芯片，实现本地 AI 不联网

常见误解

"蒸馏 = 直接复制大模型"——蒸馏是重新训练一个新的小模型，不是搬运大模型的权重。
"蒸馏后能力不打折"——蒸馏会有能力损失，只是损失比单纯缩小模型小得多。

相关名词

什么是模型参数量？ · 什么是模型微调？ · 什么是开源模型？

继续看看

什么是 RAG（检索增强生成）？什么是模型微调？什么是 MCP（模型上下文协议）？什么是大模型？什么是 AIGC？什么是 token？