什么是模型蒸馏?
模型蒸馏(Model Distillation)是一种"压缩"AI 的技术:让大模型(教师)先生成答案,再用这些答案训练小模型(学生),让小模型在消耗少得多的算力下,拥有接近大模型的能力。
用一个类比理解
假设你想学炒菜,有两种方法:一是读厚厚的食谱书(从头训练),二是直接跟着一位大厨在旁边学(蒸馏)。大厨边炒边讲"火候要这样、这一步为什么",学生比自己啃书效率高得多。蒸馏就是用大模型的"软输出"(不只告诉你答案,还告诉你每个答案的概率分布)来训练小模型,信息量比硬标签更丰富。
蒸馏解决了什么问题?
顶级大模型通常有几百亿甚至更多参数,在手机、边缘设备或低算力服务器上根本跑不动。蒸馏后的小模型参数量缩小十倍甚至百倍,可以在普通 GPU 甚至 CPU 上运行,大幅降低部署门槛和成本。
现实中的例子
- DeepSeek-R1 发布时附带了多个蒸馏版本(1.5B、7B、14B),让普通用户用个人电脑就能体验
- 苹果、华为把蒸馏小模型直接放进手机芯片,实现本地 AI 不联网
常见误解
- "蒸馏 = 直接复制大模型"——蒸馏是重新训练一个新的小模型,不是搬运大模型的权重。
- "蒸馏后能力不打折"——蒸馏会有能力损失,只是损失比单纯缩小模型小得多。