ベンチマーク 🔥 HOT
LMArena(Chatbot Arena)とは?
別名: Chatbot Arena / LMSYS Arena / Arena
人間が「どちらの回答が良かったか」を投票して AI モデルをランキング化する、人間評価ベース指標。
⚡ 30秒でわかる
LMArena(Chatbot Arena) の主なポイント
- 1 人間が匿名でモデル比較投票(A or B どっちが良い?)
- 2 Elo レーティング方式で総合ランキング・部門別ランキングを公開
- 3 「実際の使い心地」を測る、合成ベンチとの補完指標
- 4 100万件超の投票データを基にした統計的安定性
- 5 新モデルが出るたびに上位入れ替えが起きる、業界の注目ボード
📖 詳しく
LMArena(Chatbot Arena) とは
LMArena(旧 Chatbot Arena、LMSYS が運営)は、2つの AI モデルの回答を匿名で並べて、人間ユーザーが
「どちらが良かったか」を投票することでモデルランキングを作る、人間評価ベースの AI ベンチマークです。
Elo レーティング方式で各モデルにスコアが付与され、Hard Prompts・Coding・Math など部門別ランキングも公開。
「ベンチマークでは高得点だが実際の使い心地は微妙」というモデルがここで馬脚を表すこともあり、
ベンチ点数とユーザー満足度の乖離を見るのに有用です。Google・OpenAI・Anthropic も新モデルリリース時の指標として引用しています。
❓ FAQ
よくある質問
- Q. LMArena と Intelligence Index、どっちを信じればいい?
- A. 『総合的な実力』が知りたいなら Intelligence Index(合成ベンチ加重平均)、 『人間が使いやすいと感じる質』が知りたいなら LMArena。 両方上位なら鉄板モデル、片方だけ上位なら『得意領域がはっきりしてる』モデルです。
- Q. 自分も投票できる?
- A. できます。lmarena.ai にアクセスして自分の質問を入力すると、ランダムに 2 モデルが回答を返し、 『どちらが良かったか』を投票する仕組み。研究目的でデータ公開もされています。
- Q. Hard Prompts と通常ランキング、何が違う?
- A. Hard Prompts は『難しい質問のみ』で再計算したサブランキング。 推論力・コーディング・専門知識が要る質問への耐性を見るのに使われます。 通常ランキングと Hard Prompts ランキングの差が大きいモデルは『簡単な質問専用』の傾向があります。