AI 大模型能力排行榜
哪个 AI 最强?这里汇总当前主流大模型的真实能力数据,支持按综合实力、编程、智能、国产、性价比多个维度查看。
按 LMArena 真人盲测 Elo 排序
| # | 模型 | 厂商 | 竞技场 Elo | 上下文 | 特点 |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 预览版 | 🇺🇸 Anthropic | 1510 | 1M | 当前竞技场综合第一,编程 SWE-bench 也是榜首(代号预览版) |
| 2 | Claude Opus 4.6(思考) | 🇺🇸 Anthropic | 1504 | 1M | 稳居前列的推理旗舰,开启思考模式 |
| 3 | Claude Opus 4.7(思考) | 🇺🇸 Anthropic | 1502 | 1M | 编程与推理均衡的旗舰 |
| 4 | Muse Spark | 🇺🇸 Meta | 1487 | 262k | Meta 新旗舰(接替 Llama 品牌),竞技场表现强 |
| 5 | Gemini 3.1 Pro(预览) 预览版 | 1487 | 1M | GPQA 推理榜第一(94.1),速度快、性价比高 | |
| 6 | Claude Opus 4.8(思考) | 🇺🇸 Anthropic | 1486 | 1M | 正式版里综合智能指数最高(61) |
| 7 | GPT-5.5(high) | 🇺🇸 OpenAI | 1481 | 922k | OpenAI 当前旗舰,GPQA 推理紧随 Gemini |
| 8 | Gemini 3.5 Flash | 1471 | 1M | 极快(160+ tokens/s)、低价的轻量旗舰 | |
| 9 | GLM-5.1(智谱) 开源 | 🇨🇳 智谱 AI | 1465 | 200k | 国产开源最强之一,MIT 许可证可自由商用 |
| 10 | 通义千问 Qwen3.7 Max | 🇨🇳 阿里巴巴 | 1461 | 1M | 国产闭源旗舰,智能指数 57、速度快(170 tokens/s) |
| 11 | Grok 4.20 beta 预览版 | 🇺🇸 xAI | 1459 | 1M | 马斯克 xAI 出品,混合价低、性价比突出 |
| 12 | 文心一言 ERNIE(百度) | 🇨🇳 百度 | — | — | 国内生态广、产品成熟;国际榜单排名相对靠后 |
| 13 | MiniMax-M3 开源 | 🇨🇳 MiniMax | — | 1M | 极低价高指数,性价比之王(混合价 $0.22/百万) |
| 14 | Kimi K2.6(月之暗面) 开源 | 🇨🇳 月之暗面 Moonshot | — | 256k | 开源模型里智能指数最高(54),长文本见长 |
| 15 | DeepSeek V4 Pro(深度求索) 开源 | 🇨🇳 深度求索 DeepSeek | — | 1M | 开源权重最强梯队,极致性价比(输入仅 $0.44/百万) |
⚠️ 说明:榜单数据会随模型更新快速变化,分数与价格以各厂商官方为准。标「预览版」为代号/预览型号,非正式发售。 价格为每百万 token 美元,部分为混合价近似值。AI 能力强弱与「是否适合你」是两回事, 建议结合 选型指南 一起看。
这些分数是怎么测出来的?
排行榜不是拍脑袋排的。点开看看每个分数背后的考试方法: