综合智能指数：把十几项考试揉成一个分数

Q: 综合智能指数：把十几项考试揉成一个分数

Artificial Analysis 把 MMLU、GPQA、AIME 等多项测试的结果加权汇总，算出一个 0-100 的"综合智能指数"，方便横向比较不同 AI 的整体能力，但"一个分数"也有明显局限。

综合智能指数（Intelligence Index）是由 Artificial Analysis 等机构将多个权威测试的分数加权汇总后，算出的一个 0-100 的综合得分——目的是让普通用户不用挨个看十几张成绩单，一眼就能对比不同 AI 的整体能力水平。

用一个类比理解

你想招一个员工，HR 给你一张表格，上面有语文、数学、逻辑、英语、专业知识五项测试成绩。你可以每项都仔细看，也可以直接看最后一栏的"综合分"做初步判断。综合智能指数做的就是这件事——把 MMLU（知识广度）、GPQA（专业推理）、AIME（数学推理）、MATH（数学解题）等多项测试结果汇成一个数字。

具体怎么算的？

各机构的计算方法略有不同，但核心逻辑类似：先对每项测试的分数做标准化处理（让不同量纲的测试可以比较），再按权重加总。Artificial Analysis 的版本综合了约十几项测试，每隔一段时间更新一次，同时会标注每个模型的价格和速度，方便性价比对比。

它能说明什么？

综合指数特别适合"快速扫一眼，知道现在最强的几个模型是谁"，也方便横向看"同等价位里谁最强"。对于不想深入研究每项测试含义的普通用户，这是一个不错的入门参考。

有什么局限？

"一个分数"天然会掩盖结构性差异。比如，一个数学超强但写作一般的模型，和一个数学一般但写作和创意俱佳的模型，综合分可能差不多——但对不同用户来说，两个模型的实际价值完全不同。另外，综合指数只能反映"测到的那些能力"，对于中文理解、图片处理、语音交互等细分场景，单靠综合分往往不够。

对普通用户的建议

综合指数适合用来缩小选择范围（"先关注综合分前五的模型"），然后再根据自己的具体需求去测试。别把一个分数当成最终答案。