AI 入门指北AI · 说人话

大模型竞技场（LMArena）是怎么给 AI 排名的？

大模型竞技场（Chatbot Arena，现更名为 LMArena）是一个让真实用户匿名对比两个 AI 回答、投票选出更好那个的平台，用"Elo 等级分"方式累积出排名——这是目前最能反映真实使用体感的公开榜单。

怎么理解这种测法？

你可以把它想成"AI 版的国际象棋等级分"。国际象棋里，每个棋手都有一个 Elo 分，赢了高手就多得分、输给弱者就大扣分。LMArena 的逻辑一样：每次投票都相当于一场对局——你觉得 A 比 B 好，A 的分就涨一点，B 的分就跌一点。积累足够多的对局，分数就越来越接近"真实水平"。

具体怎么测的？

用户进入平台后，随便发一条消息，系统偷偷派两个不同 AI 各回答一次，但不告诉你谁是谁。你只需要选"左边好"还是"右边好"，或者"差不多"。投完才揭晓刚才是哪两个模型在"打架"。累积到目前，平台已经收集到超过 570 万条真人投票，参与者遍布全球。

它能说明什么？

和刷题类的考试不同，LMArena 考的是"这段回答你愿不愿意读、有没有帮到你"。它能捕捉到很多试卷捕捉不到的东西：回答是否流畅、有没有废话、解释是否清楚、有没有让人不舒服的语气。很多人用 AI 最在意的"感觉"，在这里能量化出来。

有什么局限？

这套方法最大的问题是"讨好偏差"：用户往往倾向于选更长、更流畅、看起来更自信的回答，即使它不一定更准确。措辞漂亮、废话多的 AI 可能比言简意赅的 AI 得更高票。另外，投票者以英语用户为主，对中文场景的参考价值要打一定折扣。

相关名词

MMLU 是什么？ · GPQA 是什么？ · 综合智能指数是什么？ · 跑分高就一定好用吗？

继续看看

什么是 RAG（检索增强生成）？什么是模型微调？什么是 MCP（模型上下文协议）？什么是大模型？什么是 AIGC？什么是 token？