大模型竞技场(LMArena)是怎么给 AI 排名的?
大模型竞技场(Chatbot Arena,现更名为 LMArena)是一个让真实用户匿名对比两个 AI 回答、投票选出更好那个的平台,用"Elo 等级分"方式累积出排名——这是目前最能反映真实使用体感的公开榜单。
怎么理解这种测法?
你可以把它想成"AI 版的国际象棋等级分"。国际象棋里,每个棋手都有一个 Elo 分,赢了高手就多得分、输给弱者就大扣分。LMArena 的逻辑一样:每次投票都相当于一场对局——你觉得 A 比 B 好,A 的分就涨一点,B 的分就跌一点。积累足够多的对局,分数就越来越接近"真实水平"。
具体怎么测的?
用户进入平台后,随便发一条消息,系统偷偷派两个不同 AI 各回答一次,但不告诉你谁是谁。你只需要选"左边好"还是"右边好",或者"差不多"。投完才揭晓刚才是哪两个模型在"打架"。累积到目前,平台已经收集到超过 570 万条真人投票,参与者遍布全球。
它能说明什么?
和刷题类的考试不同,LMArena 考的是"这段回答你愿不愿意读、有没有帮到你"。它能捕捉到很多试卷捕捉不到的东西:回答是否流畅、有没有废话、解释是否清楚、有没有让人不舒服的语气。很多人用 AI 最在意的"感觉",在这里能量化出来。
有什么局限?
这套方法最大的问题是"讨好偏差":用户往往倾向于选更长、更流畅、看起来更自信的回答,即使它不一定更准确。措辞漂亮、废话多的 AI 可能比言简意赅的 AI 得更高票。另外,投票者以英语用户为主,对中文场景的参考价值要打一定折扣。