Artificial Analysis
📏 何を測る?
AI モデルの知能・速度・価格を独立計測。Intelligence Index(総合スコア)が代表指標
🎯 いつ見る?
『総合的にどのモデルが上か』を即答したい時。月次でアップデートされるので最新動向確認にも
⚠️ 何を信じすぎちゃダメ?
総合スコアなので個別タスク性能(特に日本語)は別途確認が必要
DATA SOURCES GUIDE
AI ベンダーは自社ベンチで好スコアを並べがちですが、本当に頼れるのは独立した第三者指標。 Artificial Analysis、LMArena、SWE-Bench、Aider Leaderboard などの世界的に参照される 指標源を、ai-garage 編集部が「何を測るか・いつ見るか・何を信じすぎちゃダメか」の3軸で整理しました。
📏 何を測る?
AI モデルの知能・速度・価格を独立計測。Intelligence Index(総合スコア)が代表指標
🎯 いつ見る?
『総合的にどのモデルが上か』を即答したい時。月次でアップデートされるので最新動向確認にも
⚠️ 何を信じすぎちゃダメ?
総合スコアなので個別タスク性能(特に日本語)は別途確認が必要
📏 何を測る?
人間が2モデルの回答を匿名比較投票、Elo レーティング方式でランキング
🎯 いつ見る?
『実際の使い心地』を知りたい時。ベンチ高得点なのに使うとイマイチ系モデルを見破れる
⚠️ 何を信じすぎちゃダメ?
投票者の偏り(英語ネイティブ多め、技術者多め)あり。日本語タスクは別途確認
📏 何を測る?
AI コーディングツール Aider が実バグ修正タスクで AI の対話型コード修正力を測定
🎯 いつ見る?
Claude Code・Cursor・Codex 等のコーディング AI を選ぶ時。実体験との相関が高い
⚠️ 何を信じすぎちゃダメ?
Python / JS / Rust / Go / C++ など特定言語のみ。Web フロント系は別指標を併用
📏 何を測る?
実 OSS プロジェクトの GitHub Issue を AI が自動修正できるかを測る業界標準ベンチ
🎯 いつ見る?
コーディング AI の『真の実力』を見たい時。SWE-Bench Verified は OpenAI 監修の精選版
⚠️ 何を信じすぎちゃダメ?
Python リポジトリ中心、修正タスク特化。新規ゼロから書く能力は別途必要
📏 何を測る?
数学・物理・哲学・歴史など各分野の専門家が作成した『人類最後の試験』、超難問集
🎯 いつ見る?
推論モデル(o1 / Claude Extended Thinking / Gemini Deep Think)の進歩を測る時
⚠️ 何を信じすぎちゃダメ?
2026年時点でも上位モデルは 30〜40%、人類トップでも 80% 程度。日常用途には過剰
📏 何を測る?
François Chollet 設計、視覚パターンから抽象ルールを推論する『AGI 到達指標』
🎯 いつ見る?
AGI 議論の文脈で『人類と AI の差』を見る時。学習データに無いタイプの推論力評価
⚠️ 何を信じすぎちゃダメ?
ベンチ特化最適化が起きやすい。ARC-AGI 2 はそれを警戒した改訂版
📏 何を測る?
物理・化学・生物の博士課程レベルの問題、ネット検索しても答えが出ない設計
🎯 いつ見る?
推論モデルの専門知識深度を測る時。リサーチ業務での AI 活用判断に
⚠️ 何を信じすぎちゃダメ?
理系特化、人文系・ビジネス系の能力は測れない
📏 何を測る?
アメリカ高校数学オリンピック予選問題。推論モデルの数学力比較で必須指標
🎯 いつ見る?
推論モデルが数学・論理問題でどれだけ伸びてるか測る時
⚠️ 何を信じすぎちゃダメ?
高校数学範囲、研究レベル数学(IMO や FrontierMath)はまた別物
📏 何を測る?
57 科目の選択式問題で AI の総合知識・推論力を測る古典ベンチマーク
🎯 いつ見る?
モデル間の『基礎学力』比較に。最新モデルは MMLU で90%超え、MMLU Pro で識別力を担保
⚠️ 何を信じすぎちゃダメ?
選択式なのでチート可能性、最近のモデルでは差が出にくい。Intelligence Index に内包される
📏 何を測る?
AtCoder / LeetCode 等の競プロ問題から AI を学習データに含まれない直近問題でテスト
🎯 いつ見る?
競プロ・アルゴリズム実装能力を見たい時。汚染(contamination)を避けた評価が魅力
⚠️ 何を信じすぎちゃダメ?
競プロ特化なので、業務コード(API 設計・リファクタ等)の実力とは別軸
📖 HOW TO USE
STEP 1
Artificial Analysis の Intelligence Index を見て、検討候補を 3〜5 モデルに絞る。 上位モデルが大きく動いていないか月1回チェックすると業界変動が掴める。
STEP 2
コーディングなら Aider Leaderboard と SWE-Bench Verified、 リサーチなら GPQA / HLE、数学なら AIME。 『何のために AI を使うか』が決まっていれば、見るべき指標は1〜2個に絞れる。
STEP 3
ベンチで高得点だが LMArena で順位が低いモデルは、 『難問は解けるが普段使いの会話で違和感がある』タイプ。 最終判断前に必ず人間評価ボードを照合すること。
編集部からひとこと: 指標は『候補を絞る一次フィルタ』として使うのが正解。最終判断は自社業務での PoC が必須です。 ai-garage の AI モデル比較表 も、 上記指標を組み合わせた編集部独自集計です。
📬 STAY UPDATED
毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。