ai-garage

DATA SOURCES GUIDE

AI モデル指標源10選

AI ベンダーは自社ベンチで好スコアを並べがちですが、本当に頼れるのは独立した第三者指標。 Artificial Analysis、LMArena、SWE-Bench、Aider Leaderboard などの世界的に参照される 指標源を、ai-garage 編集部が「何を測るか・いつ見るか・何を信じすぎちゃダメか」の3軸で整理しました。

総合

Artificial Analysis

公式サイトへ →

📏 何を測る?

AI モデルの知能・速度・価格を独立計測。Intelligence Index(総合スコア)が代表指標

🎯 いつ見る?

『総合的にどのモデルが上か』を即答したい時。月次でアップデートされるので最新動向確認にも

⚠️ 何を信じすぎちゃダメ?

総合スコアなので個別タスク性能(特に日本語)は別途確認が必要

人間評価

LMArena(Chatbot Arena)

公式サイトへ →

📏 何を測る?

人間が2モデルの回答を匿名比較投票、Elo レーティング方式でランキング

🎯 いつ見る?

『実際の使い心地』を知りたい時。ベンチ高得点なのに使うとイマイチ系モデルを見破れる

⚠️ 何を信じすぎちゃダメ?

投票者の偏り(英語ネイティブ多め、技術者多め)あり。日本語タスクは別途確認

コーディング実用

Aider Polyglot Leaderboard

公式サイトへ →

📏 何を測る?

AI コーディングツール Aider が実バグ修正タスクで AI の対話型コード修正力を測定

🎯 いつ見る?

Claude Code・Cursor・Codex 等のコーディング AI を選ぶ時。実体験との相関が高い

⚠️ 何を信じすぎちゃダメ?

Python / JS / Rust / Go / C++ など特定言語のみ。Web フロント系は別指標を併用

実コード修正

SWE-Bench Verified

公式サイトへ →

📏 何を測る?

実 OSS プロジェクトの GitHub Issue を AI が自動修正できるかを測る業界標準ベンチ

🎯 いつ見る?

コーディング AI の『真の実力』を見たい時。SWE-Bench Verified は OpenAI 監修の精選版

⚠️ 何を信じすぎちゃダメ?

Python リポジトリ中心、修正タスク特化。新規ゼロから書く能力は別途必要

推論限界

Humanity's Last Exam (HLE)

公式サイトへ →

📏 何を測る?

数学・物理・哲学・歴史など各分野の専門家が作成した『人類最後の試験』、超難問集

🎯 いつ見る?

推論モデル(o1 / Claude Extended Thinking / Gemini Deep Think)の進歩を測る時

⚠️ 何を信じすぎちゃダメ?

2026年時点でも上位モデルは 30〜40%、人類トップでも 80% 程度。日常用途には過剰

汎用推論

ARC-AGI / ARC-AGI 2

公式サイトへ →

📏 何を測る?

François Chollet 設計、視覚パターンから抽象ルールを推論する『AGI 到達指標』

🎯 いつ見る?

AGI 議論の文脈で『人類と AI の差』を見る時。学習データに無いタイプの推論力評価

⚠️ 何を信じすぎちゃダメ?

ベンチ特化最適化が起きやすい。ARC-AGI 2 はそれを警戒した改訂版

博士レベル

GPQA Diamond

公式サイトへ →

📏 何を測る?

物理・化学・生物の博士課程レベルの問題、ネット検索しても答えが出ない設計

🎯 いつ見る?

推論モデルの専門知識深度を測る時。リサーチ業務での AI 活用判断に

⚠️ 何を信じすぎちゃダメ?

理系特化、人文系・ビジネス系の能力は測れない

数学

AIME

公式サイトへ →

📏 何を測る?

アメリカ高校数学オリンピック予選問題。推論モデルの数学力比較で必須指標

🎯 いつ見る?

推論モデルが数学・論理問題でどれだけ伸びてるか測る時

⚠️ 何を信じすぎちゃダメ?

高校数学範囲、研究レベル数学(IMO や FrontierMath)はまた別物

総合学力

MMLU / MMLU Pro

公式サイトへ →

📏 何を測る?

57 科目の選択式問題で AI の総合知識・推論力を測る古典ベンチマーク

🎯 いつ見る?

モデル間の『基礎学力』比較に。最新モデルは MMLU で90%超え、MMLU Pro で識別力を担保

⚠️ 何を信じすぎちゃダメ?

選択式なのでチート可能性、最近のモデルでは差が出にくい。Intelligence Index に内包される

リアルタイムコード

LiveCodeBench

公式サイトへ →

📏 何を測る?

AtCoder / LeetCode 等の競プロ問題から AI を学習データに含まれない直近問題でテスト

🎯 いつ見る?

競プロ・アルゴリズム実装能力を見たい時。汚染(contamination)を避けた評価が魅力

⚠️ 何を信じすぎちゃダメ?

競プロ特化なので、業務コード(API 設計・リファクタ等)の実力とは別軸

📖 HOW TO USE

指標源を使い分ける、編集部の3ステップ

STEP 1

『総合スコア』でショートリスト

Artificial Analysis の Intelligence Index を見て、検討候補を 3〜5 モデルに絞る。 上位モデルが大きく動いていないか月1回チェックすると業界変動が掴める。

STEP 2

『用途別』で個別ベンチ確認

コーディングなら Aider Leaderboard と SWE-Bench Verified、 リサーチなら GPQA / HLE、数学なら AIME。 『何のために AI を使うか』が決まっていれば、見るべき指標は1〜2個に絞れる。

STEP 3

『使い心地』を LMArena で照合

ベンチで高得点だが LMArena で順位が低いモデルは、 『難問は解けるが普段使いの会話で違和感がある』タイプ。 最終判断前に必ず人間評価ボードを照合すること。

編集部からひとこと: 指標は『候補を絞る一次フィルタ』として使うのが正解。最終判断は自社業務での PoC が必須です。 ai-garage の AI モデル比較表 も、 上記指標を組み合わせた編集部独自集計です。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →