何恺明带本科生干大事:258M参数就搞定文生图,训练成本是以前的零头
这件事跟你有什么关系?
平时你用AI画图(比如Midjourney、DALL·E),背后都是几十亿参数的“巨无霸”模型,训练一次要烧几百万电费。现在麻省理工学院的何恺明教授带着五个本科生搞了个新方法,只用2.58亿参数(参数就像模型的“脑细胞”,越少越省力)就能生成不错的图像,训练成本降到跟一次常规实验差不多。这意味着未来小团队甚至个人也能从头训练文生图模型,AI画图的门槛可能大跳水。
怎么做到的?砍掉两大累赘
第一刀:扔掉VAE(一种给图像“瘦身”的压缩工具)
之前的文生图模型都喜欢先通过VAE把图像压缩到一个小空间里,再在里面画画,画完再解压回来。但VAE会带来模糊和假画质,还得额外训练一套编解码器。MiniT2I直接回到原始像素空间里画,计算量反而降低了80%。
第二刀:砍掉AdaLN(一个专门传递时间信息的模块)
传统模型为了知道当前画到哪一步了,会额外加一条通道告诉模型“现在是第几步”。团队发现,模型自己从加噪后的输入就能猜出来,根本不需要另搞一套。去掉之后,模型架构更干净,性能反而提升了。
效果怎么样?
MiniT2I在标准测试集上表现不错,甚至在某些方面(比如风格和想象力)超过了一些工业级模型。当然,它在写文字和生成特定名词上还有短板,这主要是因为训练数据不够多。不过考虑到它的参数只有FLUX.1-dev(一个热门模型)的几十分之一,这个成绩已经很惊艳了。
作者阵容有点特别
论文六位作者,除了何恺明,剩下五位都是本科生,而且个个是奥赛金牌选手:项目负责人王衔邦是去年国际数学奥赛金牌得主;赵瀚宏是物理奥赛金牌;陆伊炀来自清华姚班,曾获全国物理竞赛金牌;周康阳是国际信息学奥赛满分冠军;马麟瑞是化学奥赛金牌。这些年轻人已经在AI顶级会议上发表过多篇论文。
简单总结
MiniT2I证明了文生图不一定非要堆参数、烧数据。回归朴素的设计,砍掉冗余模块,小模型也能做大事。这对降低AI技术的门槛是个好消息。