AI 大模型能力排行榜

哪个 AI 最强？这里汇总当前主流大模型的真实能力数据，支持按综合实力、编程、智能、国产、性价比多个维度查看。

数据采集：2026-06-13来源：LMArena 大模型竞技场 Artificial Analysis

按 LMArena 真人盲测 Elo 排序

#	模型	厂商	竞技场 Elo	上下文	特点
1	Claude Fable 5 预览版	🇺🇸 Anthropic	1510	1M	当前竞技场综合第一，编程 SWE-bench 也是榜首（代号预览版）
2	Claude Opus 4.6（思考）	🇺🇸 Anthropic	1504	1M	稳居前列的推理旗舰，开启思考模式
3	Claude Opus 4.7（思考）	🇺🇸 Anthropic	1502	1M	编程与推理均衡的旗舰
4	Muse Spark	🇺🇸 Meta	1487	262k	Meta 新旗舰（接替 Llama 品牌），竞技场表现强
5	Gemini 3.1 Pro（预览）预览版	🇺🇸 Google	1487	1M	GPQA 推理榜第一（94.1），速度快、性价比高
6	Claude Opus 4.8（思考）	🇺🇸 Anthropic	1486	1M	正式版里综合智能指数最高（61）
7	GPT-5.5（high）	🇺🇸 OpenAI	1481	922k	OpenAI 当前旗舰，GPQA 推理紧随 Gemini
8	Gemini 3.5 Flash	🇺🇸 Google	1471	1M	极快（160+ tokens/s）、低价的轻量旗舰
9	GLM-5.1（智谱）开源	🇨🇳 智谱 AI	1465	200k	国产开源最强之一，MIT 许可证可自由商用
10	通义千问 Qwen3.7 Max	🇨🇳 阿里巴巴	1461	1M	国产闭源旗舰，智能指数 57、速度快（170 tokens/s）
11	Grok 4.20 beta 预览版	🇺🇸 xAI	1459	1M	马斯克 xAI 出品，混合价低、性价比突出
12	文心一言 ERNIE（百度）	🇨🇳 百度	—	—	国内生态广、产品成熟；国际榜单排名相对靠后
13	MiniMax-M3 开源	🇨🇳 MiniMax	—	1M	极低价高指数，性价比之王（混合价 $0.22/百万）
14	Kimi K2.6（月之暗面）开源	🇨🇳 月之暗面 Moonshot	—	256k	开源模型里智能指数最高（54），长文本见长
15	DeepSeek V4 Pro（深度求索）开源	🇨🇳 深度求索 DeepSeek	—	1M	开源权重最强梯队，极致性价比（输入仅 $0.44/百万）

⚔️ 两个模型 PK 对比 →我该用哪个 AI？→

⚠️ 说明：榜单数据会随模型更新快速变化，分数与价格以各厂商官方为准。标「预览版」为代号/预览型号，非正式发售。价格为每百万 token 美元，部分为混合价近似值。AI 能力强弱与「是否适合你」是两回事，建议结合选型指南一起看。

需要稳定便宜的 AI API？一站式大模型 token 中转，注册即用

前往 →

推广

这些分数是怎么测出来的？

排行榜不是拍脑袋排的。点开看看每个分数背后的考试方法：

📝 AI 都在考什么题？真题大赏→竞技场 Elo 怎么排名？→SWE-bench 怎么考编程？→GPQA 博士级难题→AIME 数学竞赛→综合智能指数→看懂排行榜的 5 个常识→