AI 入门指北

综合智能指数:把十几项考试揉成一个分数

综合智能指数(Intelligence Index)是由 Artificial Analysis 等机构将多个权威测试的分数加权汇总后,算出的一个 0-100 的综合得分——目的是让普通用户不用挨个看十几张成绩单,一眼就能对比不同 AI 的整体能力水平。

用一个类比理解

你想招一个员工,HR 给你一张表格,上面有语文、数学、逻辑、英语、专业知识五项测试成绩。你可以每项都仔细看,也可以直接看最后一栏的"综合分"做初步判断。综合智能指数做的就是这件事——把 MMLU(知识广度)、GPQA(专业推理)、AIME(数学推理)、MATH(数学解题)等多项测试结果汇成一个数字。

具体怎么算的?

各机构的计算方法略有不同,但核心逻辑类似:先对每项测试的分数做标准化处理(让不同量纲的测试可以比较),再按权重加总。Artificial Analysis 的版本综合了约十几项测试,每隔一段时间更新一次,同时会标注每个模型的价格和速度,方便性价比对比。

它能说明什么?

综合指数特别适合"快速扫一眼,知道现在最强的几个模型是谁",也方便横向看"同等价位里谁最强"。对于不想深入研究每项测试含义的普通用户,这是一个不错的入门参考。

有什么局限?

"一个分数"天然会掩盖结构性差异。比如,一个数学超强但写作一般的模型,和一个数学一般但写作和创意俱佳的模型,综合分可能差不多——但对不同用户来说,两个模型的实际价值完全不同。另外,综合指数只能反映"测到的那些能力",对于中文理解、图片处理、语音交互等细分场景,单靠综合分往往不够。

对普通用户的建议

综合指数适合用来缩小选择范围("先关注综合分前五的模型"),然后再根据自己的具体需求去测试。别把一个分数当成最终答案。

相关名词

大模型竞技场是什么? · MMLU 是什么? · 跑分高就一定好用吗?