AI 入门指北

MMLU 是什么?为什么顶级 AI 都考 90 分以上了

MMLU(大规模多任务语言理解,Massive Multitask Language Understanding)是一套覆盖 57 个学科、共约 1.4 万道多选题的知识考试,曾是判断 AI"有没有读过书"的标准测试,但顶级模型得分普遍超过 90 分后,它的区分作用正在消退。

用一个类比理解

想象一套大学入学考试,涵盖数学、历史、医学、法律、物理、哲学……共 57 门课,每题四选一。几年前,能考及格就算厉害;现在最强的 AI 已经能稳定拿 90 分以上,相当于一个能以优异成绩通过几乎所有学科入学考试的"全科尖子生"。

具体怎么测的?

每道题给出一个问题和四个选项,AI 选出它认为正确的那一个,最终算正确率。题目范围极广:高中数学、大学化学、美国历史、伦理学、营养学、国际法……什么都有。这让它成为测"知识广度"的好工具。

饱和之后会怎样?

当绝大多数顶级模型都能考 88-92 分,这张卷子就很难区分谁更强了——就像如果班上所有人都考了 95+,成绩单就没法告诉你谁最聪明。这种状态叫"天花板效应"或"饱和"。MMLU 如今对顶级模型的区分度已经很低,主要还用来验证"基础知识过没过关",以及比较小模型之间的差距。

它引出了什么?

MMLU 饱和后,研究者开始寻找更难的考试。这就是为什么 GPQA(博士级难题)、AIME(高难数学)这些更难的测试越来越受关注——我们需要能把最好的 AI 考出差异来的题目。

相关名词

GPQA 是什么? · AIME 是什么? · 跑分高就一定好用吗?