AIME：用奥数竞赛题考 AI 的数学推理

AIME 是美国高中数学邀请赛的竞赛题，每道题都需要多步严谨推导才能得出答案，是检验 AI 数学推理能力的经典测试，顶级推理模型已接近满分。

AIME（美国数学邀请赛，American Invitational Mathematics Examination）是美国顶尖高中生参加的数学竞赛，每道题都需要多步严格推导——这套题被 AI 研究者借用来测试大模型的数学推理能力，顶级推理模型已接近满分水平。

用一个类比理解

AIME 的题目不是"3+5 等于几"，也不是"背出勾股定理"，而是"给出一个复杂条件，要你一步步推导出唯一正确的整数答案"。国内类比就是联赛水平的数学竞赛题——没有捷径，必须思路清晰、步步不出错才能做对。

知识题（比如 MMLU）考的是"记没记住"，竞赛数学考的是"能不能推理"。AIME 的答案是 0-999 之间的整数，不能猜选项，必须真正算出来。这让它成为检验"AI 有没有进行严谨多步推导的能力"的好工具。另外，由于题目是人类竞赛题，出题质量有保障，也不容易被"刷题训练"轻易作弊。

早期大模型在 AIME 上的表现并不理想，经常在中间步骤出错导致最终答案全错。随着"推理模型"（会在给出最终答案前先做长链条思考的 AI）的出现，顶级推理模型在 AIME 上的成绩已经接近满分，远超普通高中生、甚至大多数参加竞赛的学生的水平。

AIME 成绩高，说明这个模型在处理需要多步、不能出错的数学或逻辑问题时能力强。这对需要 AI 帮助解决复杂数理题、做精确计算、或者进行逻辑严谨推断的用户来说很有参考价值。

AIME 只考竞赛数学，和"日常生活中的计算"或"写作""沟通"完全无关。一个 AIME 接近满分的模型，在帮你写营销文案上不一定比对手更好。另外，竞赛题本身有限，随着出题数量不变、AI 训练数据越来越多，这个测试也可能面临"饱和"问题。