AI 入门指北AI · 说人话

GPQA：专家都做不出、还搜不到答案的博士级考题

GPQA（研究生级谷歌防查题，Graduate-Level Google-Proof Q&A）是一套博士级难度的物理、化学、生物选择题，设计原则是"专业博士也只有约 65% 正确率，且直接搜索找不到答案"——它是目前最能衡量 AI 深度推理能力的测试之一。

为什么叫"防搜索"题？

普通考试题的问题在于：聪明的学生可以靠搜索引擎查到答案。GPQA 出题时，命题者必须保证直接在 Google 里搜题目关键词找不到答案——要做对这些题，你必须真正理解背后的原理，而不是背下来或者搜出来。

这些题有多难？

题目来自量子力学、有机化学、分子生物学等领域，要求在多个知识点之间做复杂的推断。请来验证题目质量的专业博士，正确率大约在 65% 左右——也就是说，就算是这个领域的专家，面对这些刁钻的题目也会做错。这正是出题者的意图：确保题目足够难，不会轻易被任何人"刷穿"。

AI 做得怎么样？

早期主流模型在这套题上的得分不高，充分展现了"背诵型 AI"和"推理型 AI"的差距。随着推理能力的提升，近年顶级模型的得分已经能超过专业博士的平均水平，目前最高成绩在 90 分出头。这说明最先进的 AI 在需要多步推断的科学题上，已经超过了大多数人类专家。

它能说明什么？

GPQA 考的不是"记没记住"，而是"在陌生、复杂的情境下能不能推出正确答案"。这是目前最接近"真实科研能力"的测试，在评估 AI 做科学研究的潜力上很有参考价值。

有什么局限？

GPQA 极度专业，对于普通用户想知道的"写作好不好""帮我查资料准不准"这些问题，它什么都说明不了。它是在回答"AI 有没有博士推理能力"，而不是"AI 帮不帮得了我"。

相关名词

MMLU 是什么？ · AIME 是什么？ · 跑分高就一定好用吗？

继续看看

什么是 RAG（检索增强生成）？什么是模型微调？什么是 MCP（模型上下文协议）？什么是大模型？什么是 AIGC？什么是 token？