AI 入门指北AI · 说人话

MMLU 是什么？为什么顶级 AI 都考 90 分以上了

MMLU（大规模多任务语言理解，Massive Multitask Language Understanding）是一套覆盖 57 个学科、共约 1.4 万道多选题的知识考试，曾是判断 AI"有没有读过书"的标准测试，但顶级模型得分普遍超过 90 分后，它的区分作用正在消退。

用一个类比理解

想象一套大学入学考试，涵盖数学、历史、医学、法律、物理、哲学……共 57 门课，每题四选一。几年前，能考及格就算厉害；现在最强的 AI 已经能稳定拿 90 分以上，相当于一个能以优异成绩通过几乎所有学科入学考试的"全科尖子生"。

具体怎么测的？

每道题给出一个问题和四个选项，AI 选出它认为正确的那一个，最终算正确率。题目范围极广：高中数学、大学化学、美国历史、伦理学、营养学、国际法……什么都有。这让它成为测"知识广度"的好工具。

饱和之后会怎样？

当绝大多数顶级模型都能考 88-92 分，这张卷子就很难区分谁更强了——就像如果班上所有人都考了 95+，成绩单就没法告诉你谁最聪明。这种状态叫"天花板效应"或"饱和"。MMLU 如今对顶级模型的区分度已经很低，主要还用来验证"基础知识过没过关"，以及比较小模型之间的差距。

它引出了什么？

MMLU 饱和后，研究者开始寻找更难的考试。这就是为什么 GPQA（博士级难题）、AIME（高难数学）这些更难的测试越来越受关注——我们需要能把最好的 AI 考出差异来的题目。

相关名词

GPQA 是什么？ · AIME 是什么？ · 跑分高就一定好用吗？

继续看看

什么是 RAG（检索增强生成）？什么是模型微调？什么是 MCP（模型上下文协议）？什么是大模型？什么是 AIGC？什么是 token？