AIME:用奥数竞赛题考 AI 的数学推理
AIME(美国数学邀请赛,American Invitational Mathematics Examination)是美国顶尖高中生参加的数学竞赛,每道题都需要多步严格推导——这套题被 AI 研究者借用来测试大模型的数学推理能力,顶级推理模型已接近满分水平。
用一个类比理解
AIME 的题目不是"3+5 等于几",也不是"背出勾股定理",而是"给出一个复杂条件,要你一步步推导出唯一正确的整数答案"。国内类比就是联赛水平的数学竞赛题——没有捷径,必须思路清晰、步步不出错才能做对。
为什么用竞赛题测 AI?
知识题(比如 MMLU)考的是"记没记住",竞赛数学考的是"能不能推理"。AIME 的答案是 0-999 之间的整数,不能猜选项,必须真正算出来。这让它成为检验"AI 有没有进行严谨多步推导的能力"的好工具。另外,由于题目是人类竞赛题,出题质量有保障,也不容易被"刷题训练"轻易作弊。
AI 现在的水平如何?
早期大模型在 AIME 上的表现并不理想,经常在中间步骤出错导致最终答案全错。随着"推理模型"(会在给出最终答案前先做长链条思考的 AI)的出现,顶级推理模型在 AIME 上的成绩已经接近满分,远超普通高中生、甚至大多数参加竞赛的学生的水平。
它能说明什么?
AIME 成绩高,说明这个模型在处理需要多步、不能出错的数学或逻辑问题时能力强。这对需要 AI 帮助解决复杂数理题、做精确计算、或者进行逻辑严谨推断的用户来说很有参考价值。
有什么局限?
AIME 只考竞赛数学,和"日常生活中的计算"或"写作""沟通"完全无关。一个 AIME 接近满分的模型,在帮你写营销文案上不一定比对手更好。另外,竞赛题本身有限,随着出题数量不变、AI 训练数据越来越多,这个测试也可能面临"饱和"问题。