ai-garage
ベンチマーク 🔥 HOT

LMArena(Chatbot Arena)とは?

別名: Chatbot Arena / LMSYS Arena / Arena

人間が「どちらの回答が良かったか」を投票して AI モデルをランキング化する、人間評価ベース指標。

⚡ 30秒でわかる

LMArena(Chatbot Arena) の主なポイント

  • 1 人間が匿名でモデル比較投票(A or B どっちが良い?)
  • 2 Elo レーティング方式で総合ランキング・部門別ランキングを公開
  • 3 「実際の使い心地」を測る、合成ベンチとの補完指標
  • 4 100万件超の投票データを基にした統計的安定性
  • 5 新モデルが出るたびに上位入れ替えが起きる、業界の注目ボード

📖 詳しく

LMArena(Chatbot Arena) とは

LMArena(旧 Chatbot Arena、LMSYS が運営)は、2つの AI モデルの回答を匿名で並べて、人間ユーザーが 「どちらが良かったか」を投票することでモデルランキングを作る、人間評価ベースの AI ベンチマークです。 Elo レーティング方式で各モデルにスコアが付与され、Hard Prompts・Coding・Math など部門別ランキングも公開。 「ベンチマークでは高得点だが実際の使い心地は微妙」というモデルがここで馬脚を表すこともあり、 ベンチ点数とユーザー満足度の乖離を見るのに有用です。Google・OpenAI・Anthropic も新モデルリリース時の指標として引用しています。

❓ FAQ

よくある質問

Q. LMArena と Intelligence Index、どっちを信じればいい?
A. 『総合的な実力』が知りたいなら Intelligence Index(合成ベンチ加重平均)、 『人間が使いやすいと感じる質』が知りたいなら LMArena。 両方上位なら鉄板モデル、片方だけ上位なら『得意領域がはっきりしてる』モデルです。
Q. 自分も投票できる?
A. できます。lmarena.ai にアクセスして自分の質問を入力すると、ランダムに 2 モデルが回答を返し、 『どちらが良かったか』を投票する仕組み。研究目的でデータ公開もされています。
Q. Hard Prompts と通常ランキング、何が違う?
A. Hard Prompts は『難しい質問のみ』で再計算したサブランキング。 推論力・コーディング・専門知識が要る質問への耐性を見るのに使われます。 通常ランキングと Hard Prompts ランキングの差が大きいモデルは『簡単な質問専用』の傾向があります。

📎 SOURCES

一次ソース

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →