ai-garage

COST × PERFORMANCE MATRIX

AI モデルコスパマトリクス

主要 AI モデル 8 個を「料金」×「知能スコア」の2軸でビジュアル化。 左上に近いほど「安くて賢い」コスパ最強、右下に近いほど「高くて賢くない」要再検討モデル。 ai-garage 編集部が公開ベンチデータから独自集計した、2026年5月時点のスナップショットです。

📊 SCATTER PLOT

価格 × 知能スコアの散布図

🏆 コスパ最強 💎 高性能・高価格 🪙 軽量・低コスト ⚠️ 要再検討 60 70 80 90 100 知能スコア (0-100) $0.5 $1 $2 $5 $10 $20 平均料金 ($/MTok, log scale) GPT-5.5 Claude Opus 4.7 DeepSeek V4-Pro Gemini 3.1 Pro Claude Sonnet 4.6 Qwen3.6-27B Grok 4.3 Mistral Large 3

※ 中央の点線は「平均料金 $3」「知能スコア 85」のコスパ判定基準ライン。左上ほど効率が高い。

📋 DATA TABLE

計算過程の元データ

モデル SWE MMLU GPQA AIME 独自スコア 入力 $/MTok 出力 $/MTok 平均 $
GPT-5.5 OpenAI 88.792.493.696.7 92.9 $5 $30 $17.50
Gemini 3.1 Pro Google 80.69194.395 90.2 $2 $12 $7.00
Claude Opus 4.7 Anthropic 87.68879.692 86.8 $5 $25 $15.00
Grok 4.3 xAI 75878895 86.3 $1.25 $2.5 $1.88
Claude Sonnet 4.6 Anthropic 79.68689.989 86.1 $3 $15 $9.00
Qwen3.6-27B Alibaba 77.28587.888 84.5 $0.6 $3.6 $2.10
DeepSeek V4-Pro DeepSeek 80.6867888 83.2 $1.74 $3.48 $2.61
Mistral Large 3 Mistral AI 6085.57375 73.4 $0.5 $1.5 $1.00

※ 一部モデルはベンチ未公表項目があり、その場合は使える値のみで平均しています。「-」は数値未公表または未測定。

🧭 EDITORIAL VIEW

4 象限ごとの選び方ガイド

🏆 左上:コスパ最強象限

DeepSeek-V4 / Qwen 3 / Gemini Flash

高スコア × 低価格の理想ゾーン。大量処理・API バックエンド・社内自動化に最適。 ただし日本語性能・サポート品質は別途確認が必要(特に中国系オープンモデル)。

💎 右上:高性能・高価格象限

Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro

最高性能ゾーン。重要判断・高品質コード生成・専門レポート作成など、料金より品質を重視する場面で。 「最後の砦」として要所で使う運用が現実解。

🪙 左下:軽量・低コスト象限

Mistral Large 3

性能・価格ともに中庸。ハイエンドが過剰な定型タスク、欧州市場でのデータレジデンシー要件などで選ばれる。 汎用エージェントのバックボーンとしてもアリ。

⚠️ 右下:要再検討象限

該当モデル少数

高価格なのにスコアが低い「コスパ悪い」象限。2026年5月時点の主要モデルにはほぼ該当無し。 ただし「特定ベンチに弱い割に高い」モデルは要警戒。用途別ベンチ確認を必ず。

この集計について

独自スコアの計算方法: SWE-Bench / MMLU / GPQA / AIME の4ベンチの単純平均。公開された値がない項目はスキップして残りで平均。 ai-garage 編集部が公開ベンチデータから独自に集計した、簡易的なスコアです。

より厳密な指標を見たい方: 独立分析サイト Artificial Analysis が、 より多くのベンチマーク(HumanEval / MATH / HLE / LiveCodeBench 含む)を加重平均した Intelligence Index を公開しています。 人間評価ベースなら LMArena を併用するとさらに精度が上がります。

注意点: スコアは単純平均なので、得意分野(コーディング偏重 vs 数学偏重 vs 汎用)の違いは表現できません。 実務用途では AI モデル比較表 の個別指標、 指標源ガイド の使い分けと合わせて参照してください。

更新頻度: 月次でモデル追加・スコア再集計。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →