何恺明带本科生干大事：258M参数就搞定文生图，训练成本是以前的零头

这件事跟你有什么关系？

平时你用AI画图（比如Midjourney、DALL·E），背后都是几十亿参数的“巨无霸”模型，训练一次要烧几百万电费。现在麻省理工学院的何恺明教授带着五个本科生搞了个新方法，只用2.58亿参数（参数就像模型的“脑细胞”，越少越省力）就能生成不错的图像，训练成本降到跟一次常规实验差不多。这意味着未来小团队甚至个人也能从头训练文生图模型，AI画图的门槛可能大跳水。

怎么做到的？砍掉两大累赘

第一刀：扔掉VAE（一种给图像“瘦身”的压缩工具）

之前的文生图模型都喜欢先通过VAE把图像压缩到一个小空间里，再在里面画画，画完再解压回来。但VAE会带来模糊和假画质，还得额外训练一套编解码器。MiniT2I直接回到原始像素空间里画，计算量反而降低了80%。

第二刀：砍掉AdaLN（一个专门传递时间信息的模块）

传统模型为了知道当前画到哪一步了，会额外加一条通道告诉模型“现在是第几步”。团队发现，模型自己从加噪后的输入就能猜出来，根本不需要另搞一套。去掉之后，模型架构更干净，性能反而提升了。

效果怎么样？

MiniT2I在标准测试集上表现不错，甚至在某些方面（比如风格和想象力）超过了一些工业级模型。当然，它在写文字和生成特定名词上还有短板，这主要是因为训练数据不够多。不过考虑到它的参数只有FLUX.1-dev（一个热门模型）的几十分之一，这个成绩已经很惊艳了。

作者阵容有点特别

论文六位作者，除了何恺明，剩下五位都是本科生，而且个个是奥赛金牌选手：项目负责人王衔邦是去年国际数学奥赛金牌得主；赵瀚宏是物理奥赛金牌；陆伊炀来自清华姚班，曾获全国物理竞赛金牌；周康阳是国际信息学奥赛满分冠军；马麟瑞是化学奥赛金牌。这些年轻人已经在AI顶级会议上发表过多篇论文。

简单总结

MiniT2I证明了文生图不一定非要堆参数、烧数据。回归朴素的设计，砍掉冗余模块，小模型也能做大事。这对降低AI技术的门槛是个好消息。