ベンチマーク 🔥 HOT
Intelligence Indexとは?
別名: インテリジェンスインデックス / AAI(Artificial Analysis Intelligence Index)
Artificial Analysis が公開する AI モデルの「総合知能スコア」。複数ベンチの加重平均で0〜100点。
⚡ 30秒でわかる
Intelligence Index の主なポイント
- 1 複数ベンチの加重平均(MMLU・GPQA・HumanEval・MATH・HLE など)
- 2 0〜100 点スケールで、高いほど「総合的に賢い」
- 3 2026年5月時点で GPT-5.5 / Claude Opus / Gemini 3.1 Pro が上位を占める
- 4 「総合スコア」なので個別タスク性能は別途確認が必要
- 5 月次でモデル追加・スコア更新される
📖 詳しく
Intelligence Index とは
Intelligence Index は、独立分析サイト Artificial Analysis が公開する AI モデルの「総合知能スコア」です。
MMLU・GPQA・HumanEval・MATH・HLE など主要ベンチマーク 6〜8 種類の加重平均を 0〜100 点で表現します。
「このモデルは賢いの?」を一目で比較できるため、業界でデファクト指標の一つになっています。
ただし「総合」なので、コーディング・推論・日本語性能など個別の強みは別途確認が必要です。
❓ FAQ
よくある質問
- Q. Intelligence Index は何を測ってる?
- A. Artificial Analysis が選定した複数のベンチマーク(MMLU・GPQA・HumanEval・MATH・HLE など)の加重平均スコアです。 「総合的にどれだけ賢いか」を 0〜100 点の単一スコアで表します。
- Q. 単独ベンチマーク(MMLU など)と何が違う?
- A. 単独ベンチは「特定領域の能力」だけを測ります。Intelligence Index は複数を統合した「総合スコア」のため、 用途を絞らない比較に向きます。逆に「コーディング専用に選びたい」なら SWE-Bench を直接見るべきです。
- Q. ai-garage の比較表で出てくる SWE-Bench とどっちを優先すべき?
- A. 「総合的にどれが賢い?」を即答したいなら Intelligence Index、 「自分の業務(コーディング・数学・推論)で強い?」を見たいなら個別ベンチを参照してください。 実務では両方の照合が一番安全です。