DATA SOURCES GUIDE

AI モデル指標源10選

AI ベンダーは自社ベンチで好スコアを並べがちですが、本当に頼れるのは独立した第三者指標。 Artificial Analysis、LMArena、SWE-Bench、Aider Leaderboard などの世界的に参照される指標源を、ai-garage 編集部が「何を測るか・いつ見るか・何を信じすぎちゃダメか」の3軸で整理しました。

総合

Artificial Analysis

公式サイトへ →

📏 何を測る？

AI モデルの知能・速度・価格を独立計測。Intelligence Index（総合スコア）が代表指標

🎯 いつ見る？

『総合的にどのモデルが上か』を即答したい時。月次でアップデートされるので最新動向確認にも

⚠️ 何を信じすぎちゃダメ？

総合スコアなので個別タスク性能（特に日本語）は別途確認が必要

ai-garage 用語集で詳しく見る →

人間評価

LMArena（Chatbot Arena）

公式サイトへ →

📏 何を測る？

人間が2モデルの回答を匿名比較投票、Elo レーティング方式でランキング

🎯 いつ見る？

『実際の使い心地』を知りたい時。ベンチ高得点なのに使うとイマイチ系モデルを見破れる

⚠️ 何を信じすぎちゃダメ？

投票者の偏り（英語ネイティブ多め、技術者多め）あり。日本語タスクは別途確認

ai-garage 用語集で詳しく見る →

コーディング実用

Aider Polyglot Leaderboard

公式サイトへ →

📏 何を測る？

AI コーディングツール Aider が実バグ修正タスクで AI の対話型コード修正力を測定

🎯 いつ見る？

Claude Code・Cursor・Codex 等のコーディング AI を選ぶ時。実体験との相関が高い

⚠️ 何を信じすぎちゃダメ？

Python / JS / Rust / Go / C++ など特定言語のみ。Web フロント系は別指標を併用

ai-garage 用語集で詳しく見る →

実コード修正

SWE-Bench Verified

公式サイトへ →

📏 何を測る？

実 OSS プロジェクトの GitHub Issue を AI が自動修正できるかを測る業界標準ベンチ

🎯 いつ見る？

コーディング AI の『真の実力』を見たい時。SWE-Bench Verified は OpenAI 監修の精選版

⚠️ 何を信じすぎちゃダメ？

Python リポジトリ中心、修正タスク特化。新規ゼロから書く能力は別途必要

ai-garage 用語集で詳しく見る →

推論限界

Humanity's Last Exam (HLE)

公式サイトへ →

📏 何を測る？

数学・物理・哲学・歴史など各分野の専門家が作成した『人類最後の試験』、超難問集

🎯 いつ見る？

推論モデル（o1 / Claude Extended Thinking / Gemini Deep Think）の進歩を測る時

⚠️ 何を信じすぎちゃダメ？

2026年時点でも上位モデルは 30〜40%、人類トップでも 80% 程度。日常用途には過剰

ai-garage 用語集で詳しく見る →

汎用推論

ARC-AGI / ARC-AGI 2

公式サイトへ →

📏 何を測る？

François Chollet 設計、視覚パターンから抽象ルールを推論する『AGI 到達指標』

🎯 いつ見る？

AGI 議論の文脈で『人類と AI の差』を見る時。学習データに無いタイプの推論力評価

⚠️ 何を信じすぎちゃダメ？

ベンチ特化最適化が起きやすい。ARC-AGI 2 はそれを警戒した改訂版

博士レベル

GPQA Diamond

公式サイトへ →

📏 何を測る？

物理・化学・生物の博士課程レベルの問題、ネット検索しても答えが出ない設計

🎯 いつ見る？

推論モデルの専門知識深度を測る時。リサーチ業務での AI 活用判断に

⚠️ 何を信じすぎちゃダメ？

理系特化、人文系・ビジネス系の能力は測れない

ai-garage 用語集で詳しく見る →

数学

AIME

公式サイトへ →

📏 何を測る？

アメリカ高校数学オリンピック予選問題。推論モデルの数学力比較で必須指標

🎯 いつ見る？

推論モデルが数学・論理問題でどれだけ伸びてるか測る時

⚠️ 何を信じすぎちゃダメ？

高校数学範囲、研究レベル数学（IMO や FrontierMath）はまた別物

ai-garage 用語集で詳しく見る →

総合学力

MMLU / MMLU Pro

公式サイトへ →

📏 何を測る？

57 科目の選択式問題で AI の総合知識・推論力を測る古典ベンチマーク

🎯 いつ見る？

モデル間の『基礎学力』比較に。最新モデルは MMLU で90%超え、MMLU Pro で識別力を担保

⚠️ 何を信じすぎちゃダメ？

選択式なのでチート可能性、最近のモデルでは差が出にくい。Intelligence Index に内包される

リアルタイムコード

LiveCodeBench

公式サイトへ →

📏 何を測る？

AtCoder / LeetCode 等の競プロ問題から AI を学習データに含まれない直近問題でテスト

🎯 いつ見る？

競プロ・アルゴリズム実装能力を見たい時。汚染（contamination）を避けた評価が魅力

⚠️ 何を信じすぎちゃダメ？

競プロ特化なので、業務コード（API 設計・リファクタ等）の実力とは別軸

📖 HOW TO USE

指標源を使い分ける、編集部の3ステップ

STEP 1

『総合スコア』でショートリスト

Artificial Analysis の Intelligence Index を見て、検討候補を 3〜5 モデルに絞る。上位モデルが大きく動いていないか月1回チェックすると業界変動が掴める。

STEP 2

『用途別』で個別ベンチ確認

コーディングなら Aider Leaderboard と SWE-Bench Verified、リサーチなら GPQA / HLE、数学なら AIME。『何のために AI を使うか』が決まっていれば、見るべき指標は1〜2個に絞れる。

STEP 3

『使い心地』を LMArena で照合

ベンチで高得点だが LMArena で順位が低いモデルは、『難問は解けるが普段使いの会話で違和感がある』タイプ。最終判断前に必ず人間評価ボードを照合すること。

編集部からひとこと： 指標は『候補を絞る一次フィルタ』として使うのが正解。最終判断は自社業務での PoC が必須です。 ai-garage の AIモデル比較表も、上記指標を組み合わせた編集部独自集計です。

更新を受け取る

X で更新を受け取る（@tenbin_maru） → RSSで受け取る →