COST × PERFORMANCE MATRIX
AI モデルコスパマトリクス
主要 AI モデル 8 個を「料金」×「知能スコア」の2軸でビジュアル化。 左上に近いほど「安くて賢い」コスパ最強、右下に近いほど「高くて賢くない」要再検討モデル。 ai-garage 編集部が公開ベンチデータから独自集計した、2026年5月時点のスナップショットです。
📊 SCATTER PLOT
価格 × 知能スコアの散布図
※ 中央の点線は「平均料金 $3」「知能スコア 85」のコスパ判定基準ライン。左上ほど効率が高い。
📋 DATA TABLE
計算過程の元データ
| モデル | SWE | MMLU | GPQA | AIME | 独自スコア | 入力 $/MTok | 出力 $/MTok | 平均 $ |
|---|---|---|---|---|---|---|---|---|
| GPT-5.5 OpenAI | 88.7 | 92.4 | 93.6 | 96.7 | 92.9 | $5 | $30 | $17.50 |
| Gemini 3.1 Pro Google | 80.6 | 91 | 94.3 | 95 | 90.2 | $2 | $12 | $7.00 |
| Claude Opus 4.7 Anthropic | 87.6 | 88 | 79.6 | 92 | 86.8 | $5 | $25 | $15.00 |
| Grok 4.3 xAI | 75 | 87 | 88 | 95 | 86.3 | $1.25 | $2.5 | $1.88 |
| Claude Sonnet 4.6 Anthropic | 79.6 | 86 | 89.9 | 89 | 86.1 | $3 | $15 | $9.00 |
| Qwen3.6-27B Alibaba | 77.2 | 85 | 87.8 | 88 | 84.5 | $0.6 | $3.6 | $2.10 |
| DeepSeek V4-Pro DeepSeek | 80.6 | 86 | 78 | 88 | 83.2 | $1.74 | $3.48 | $2.61 |
| Mistral Large 3 Mistral AI | 60 | 85.5 | 73 | 75 | 73.4 | $0.5 | $1.5 | $1.00 |
※ 一部モデルはベンチ未公表項目があり、その場合は使える値のみで平均しています。「-」は数値未公表または未測定。
🧭 EDITORIAL VIEW
4 象限ごとの選び方ガイド
🏆 左上:コスパ最強象限
DeepSeek-V4 / Qwen 3 / Gemini Flash
高スコア × 低価格の理想ゾーン。大量処理・API バックエンド・社内自動化に最適。 ただし日本語性能・サポート品質は別途確認が必要(特に中国系オープンモデル)。
💎 右上:高性能・高価格象限
Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro
最高性能ゾーン。重要判断・高品質コード生成・専門レポート作成など、料金より品質を重視する場面で。 「最後の砦」として要所で使う運用が現実解。
🪙 左下:軽量・低コスト象限
Mistral Large 3
性能・価格ともに中庸。ハイエンドが過剰な定型タスク、欧州市場でのデータレジデンシー要件などで選ばれる。 汎用エージェントのバックボーンとしてもアリ。
⚠️ 右下:要再検討象限
該当モデル少数
高価格なのにスコアが低い「コスパ悪い」象限。2026年5月時点の主要モデルにはほぼ該当無し。 ただし「特定ベンチに弱い割に高い」モデルは要警戒。用途別ベンチ確認を必ず。
この集計について
独自スコアの計算方法: SWE-Bench / MMLU / GPQA / AIME の4ベンチの単純平均。公開された値がない項目はスキップして残りで平均。 ai-garage 編集部が公開ベンチデータから独自に集計した、簡易的なスコアです。
より厳密な指標を見たい方: 独立分析サイト Artificial Analysis が、 より多くのベンチマーク(HumanEval / MATH / HLE / LiveCodeBench 含む)を加重平均した Intelligence Index を公開しています。 人間評価ベースなら LMArena を併用するとさらに精度が上がります。
注意点: スコアは単純平均なので、得意分野(コーディング偏重 vs 数学偏重 vs 汎用)の違いは表現できません。 実務用途では AI モデル比較表 の個別指標、 指標源ガイド の使い分けと合わせて参照してください。
更新頻度: 月次でモデル追加・スコア再集計。