LMArena と Intelligence Index、どっちを信じればいい？

『総合的な実力』が知りたいなら Intelligence Index（合成ベンチ加重平均）、『人間が使いやすいと感じる質』が知りたいなら LMArena。両方上位なら鉄板モデル、片方だけ上位なら『得意領域がはっきりしてる』モデルです。

自分も投票できる？

できます。arena.ai（旧 lmarena.ai）にアクセスして自分の質問を入力すると、ランダムに 2 モデルが回答を返し、『どちらが良かったか』を投票する仕組み。研究目的でデータ公開もされています。

Hard Prompts と通常ランキング、何が違う？

Hard Prompts は『難しい質問のみ』で再計算したサブランキング。推論力・コーディング・専門知識が要る質問への耐性を見るのに使われます。通常ランキングと Hard Prompts ランキングの差が大きいモデルは『簡単な質問専用』の傾向があります。

ベンチマーク 🔥 HOT

LMArena（Chatbot Arena）とは？

Q: LMArena と Intelligence Index、どっちを信じればいい？

『総合的な実力』が知りたいなら Intelligence Index（合成ベンチ加重平均）、 『人間が使いやすいと感じる質』が知りたいなら LMArena。 両方上位なら鉄板モデル、片方だけ上位なら『得意領域がはっきりしてる』モデルです。

Q: Hard Prompts と通常ランキング、何が違う？

Hard Prompts は『難しい質問のみ』で再計算したサブランキング。 推論力・コーディング・専門知識が要る質問への耐性を見るのに使われます。 通常ランキングと Hard Prompts ランキングの差が大きいモデルは『簡単な質問専用』の傾向があります。

別名: Chatbot Arena / LMSYS Arena / Arena

人間が「どちらの回答が良かったか」を投票して AI モデルをランキング化する、人間評価ベース指標。

⚡ 30秒でわかる

LMArena（Chatbot Arena）の主なポイント

1 人間が匿名でモデル比較投票（A or B どっちが良い？）
2 Elo レーティング方式で総合ランキング・部門別ランキングを公開
3 「実際の使い心地」を測る、合成ベンチとの補完指標
4 100万件超の投票データを基にした統計的安定性
5 新モデルが出るたびに上位入れ替えが起きる、業界の注目ボード
6 UC Berkeley 発の研究グループ LMSYS が立ち上げ、その後独立企業化。2026年1月に「Arena」へ改称（現 arena.ai、旧 lmarena.ai）

📖 詳しく

LMArena（Chatbot Arena）とは

LMArena（旧 Chatbot Arena）は、2つの AI モデルの回答を匿名で並べて、人間ユーザーが「どちらが良かったか」を投票することでモデルランキングを作る、人間評価ベースの AI ベンチマークです。 UC Berkeley 発の研究グループ LMSYS が立ち上げ、その後独立企業として法人化。2026年1月に「Arena」へ改称し、現在は arena.ai で運営されています（旧 lmarena.ai もここへ転送）。 Elo レーティング方式で各モデルにスコアが付与され、Hard Prompts・Coding・Math など部門別ランキングも公開。「ベンチマークでは高得点だが実際の使い心地は微妙」というモデルがここで馬脚を表すこともあり、ベンチ点数とユーザー満足度の乖離を見るのに有用です。Google・OpenAI・Anthropic も新モデルリリース時の指標として引用しています。

❓ FAQ

よくある質問

Q. LMArena と Intelligence Index、どっちを信じればいい？: A. 『総合的な実力』が知りたいなら Intelligence Index（合成ベンチ加重平均）、『人間が使いやすいと感じる質』が知りたいなら LMArena。両方上位なら鉄板モデル、片方だけ上位なら『得意領域がはっきりしてる』モデルです。
Q. 自分も投票できる？: A. できます。arena.ai（旧 lmarena.ai）にアクセスして自分の質問を入力すると、ランダムに 2 モデルが回答を返し、『どちらが良かったか』を投票する仕組み。研究目的でデータ公開もされています。
Q. Hard Prompts と通常ランキング、何が違う？: A. Hard Prompts は『難しい質問のみ』で再計算したサブランキング。推論力・コーディング・専門知識が要る質問への耐性を見るのに使われます。通常ランキングと Hard Prompts ランキングの差が大きいモデルは『簡単な質問専用』の傾向があります。

🔗 関連

あわせて読みたい

「LMArena（Chatbot Arena）」が出てくるニュース

2026/5/5

Claude が『創作の相棒』になった日 — Claude for Creative Work が描く未来

📎 SOURCES

一次ソース

ベンチマークカテゴリの用語

Aider Polyglot Leaderboard AIME AIコスパ指数 Chatbot Arena GPQA HumanEval Humanity's Last Exam（HLE） Intelligence Index MMLU SWE-Bench SWE-Bench Pro Terminal-Bench ベンチマークロングコンテキスト評価

← 前の用語

Intelligence Index

次の用語 →

MMLU

FOR BEGINNERS

AI初心者ガイド

用語が多くて混乱したら、まず全体像から。AI初心者が「何から始める？」を5分で。

GLOSSARY

AI用語集一覧へ

94語をカテゴリ・検索で引ける。気になる用語をまとめてチェック。