GPQA:专家都做不出、还搜不到答案的博士级考题
GPQA(研究生级谷歌防查题,Graduate-Level Google-Proof Q&A)是一套博士级难度的物理、化学、生物选择题,设计原则是"专业博士也只有约 65% 正确率,且直接搜索找不到答案"——它是目前最能衡量 AI 深度推理能力的测试之一。
为什么叫"防搜索"题?
普通考试题的问题在于:聪明的学生可以靠搜索引擎查到答案。GPQA 出题时,命题者必须保证直接在 Google 里搜题目关键词找不到答案——要做对这些题,你必须真正理解背后的原理,而不是背下来或者搜出来。
这些题有多难?
题目来自量子力学、有机化学、分子生物学等领域,要求在多个知识点之间做复杂的推断。请来验证题目质量的专业博士,正确率大约在 65% 左右——也就是说,就算是这个领域的专家,面对这些刁钻的题目也会做错。这正是出题者的意图:确保题目足够难,不会轻易被任何人"刷穿"。
AI 做得怎么样?
早期主流模型在这套题上的得分不高,充分展现了"背诵型 AI"和"推理型 AI"的差距。随着推理能力的提升,近年顶级模型的得分已经能超过专业博士的平均水平,目前最高成绩在 90 分出头。这说明最先进的 AI 在需要多步推断的科学题上,已经超过了大多数人类专家。
它能说明什么?
GPQA 考的不是"记没记住",而是"在陌生、复杂的情境下能不能推出正确答案"。这是目前最接近"真实科研能力"的测试,在评估 AI 做科学研究的潜力上很有参考价值。
有什么局限?
GPQA 极度专业,对于普通用户想知道的"写作好不好""帮我查资料准不准"这些问题,它什么都说明不了。它是在回答"AI 有没有博士推理能力",而不是"AI 帮不帮得了我"。