ai-garage
ベンチマーク 🔥 HOT

Intelligence Indexとは?

別名: インテリジェンスインデックス / AAI(Artificial Analysis Intelligence Index)

Artificial Analysis が公開する AI モデルの「総合知能スコア」。複数ベンチの加重平均で0〜100点。

⚡ 30秒でわかる

Intelligence Index の主なポイント

  • 1 複数ベンチの加重平均(MMLU・GPQA・HumanEval・MATH・HLE など)
  • 2 0〜100 点スケールで、高いほど「総合的に賢い」
  • 3 2026年5月時点で GPT-5.5 / Claude Opus / Gemini 3.1 Pro が上位を占める
  • 4 「総合スコア」なので個別タスク性能は別途確認が必要
  • 5 月次でモデル追加・スコア更新される

📖 詳しく

Intelligence Index とは

Intelligence Index は、独立分析サイト Artificial Analysis が公開する AI モデルの「総合知能スコア」です。 MMLU・GPQA・HumanEval・MATH・HLE など主要ベンチマーク 6〜8 種類の加重平均を 0〜100 点で表現します。 「このモデルは賢いの?」を一目で比較できるため、業界でデファクト指標の一つになっています。 ただし「総合」なので、コーディング・推論・日本語性能など個別の強みは別途確認が必要です。

❓ FAQ

よくある質問

Q. Intelligence Index は何を測ってる?
A. Artificial Analysis が選定した複数のベンチマーク(MMLU・GPQA・HumanEval・MATH・HLE など)の加重平均スコアです。 「総合的にどれだけ賢いか」を 0〜100 点の単一スコアで表します。
Q. 単独ベンチマーク(MMLU など)と何が違う?
A. 単独ベンチは「特定領域の能力」だけを測ります。Intelligence Index は複数を統合した「総合スコア」のため、 用途を絞らない比較に向きます。逆に「コーディング専用に選びたい」なら SWE-Bench を直接見るべきです。
Q. ai-garage の比較表で出てくる SWE-Bench とどっちを優先すべき?
A. 「総合的にどれが賢い?」を即答したいなら Intelligence Index、 「自分の業務(コーディング・数学・推論)で強い?」を見たいなら個別ベンチを参照してください。 実務では両方の照合が一番安全です。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →