COST × PERFORMANCE MATRIX

AI モデルコスパマトリクス

主要 AI モデル 12 個を「料金」×「知能スコア」の2軸でビジュアル化。左上に近いほど「安くて賢い」コスパ最強、右下に近いほど「高くて賢くない」要再検討モデル。 ai-garage 編集部が公開ベンチデータから独自集計した、2026年7月時点のスナップショットです。

どのAIを選べばいいか迷ったら

5問に答えるだけでおすすめがわかるよ

AI診断をやってみる →

📊 SCATTER PLOT

価格 × 知能スコアの散布図

※ 縦軸は第三者機関 Artificial Analysis の Intelligence Index v4.1（AA Index）。中央の点線は「平均料金 $3」「AA Index 45」のコスパ判定基準ライン。左上ほど効率が高い。

📋 DATA TABLE

計算過程の元データ

モデル	SWE	MMLU	GPQA	AIME	知能(AA)	入力 $/MTok	出力 $/MTok	平均 $	AIコスパ指数
Grok 4.5 SpaceXAI（旧xAI）	-	-	-	-	54	$2	$6	$4.00	75
Qwen3.7 Max Alibaba	80.4	-	92.4	-	46	$1.25	$3.75	$2.50	73
Kimi K3 Moonshot AI	-	-	93.5	-	57	$3	$15	$9.00	70
Gemini 3.5 Flash Google	-	-	-	-	50	$1.5	$9	$5.25	70
DeepSeek V4-Pro DeepSeek	80.6	86	78	88	44	$1.74	$3.48	$2.61	69
Claude Sonnet 5 Anthropic	85.2	-	-	-	53	$3	$15	$9.00	66
GPT-5.6 Sol OpenAI	-	-	94.1	-	59	$5	$30	$17.50	65
Gemini 3.1 Flash-Lite Google	-	-	-	-	25	$0.25	$1.5	$0.88	65
Claude Opus 4.8 Anthropic	88.6	-	93.6	-	56	$5	$25	$15.00	64
Gemini 3.1 Pro Google	80.6	91	94.3	95	46	$2	$12	$7.00	63
Claude Fable 5 Anthropic	95	-	-	-	60	$10	$50	$30.00	60
Mistral Large 3 Mistral AI	60	85.5	73	75	16	$0.5	$1.5	$1.00	53

※「知能(AA)」＝第三者機関 Artificial Analysis の Intelligence Index v4.1（散布図の縦軸）。「平均 $」＝入力・出力料金の単純平均（散布図の横軸）。「AIコスパ指数」＝知能(AA) と料金の安さ（入力3:出力1のブレンド料金・対数スケール）を 6:4 で加重した ai-garage 編集部の独自指標（算出式は比較表・用語集を参照）。 SWE / MMLU / GPQA / AIME は参考掲載で、「-」は各社が数値を未公表なもの（AA Index は独立測定のため掲載可能）。

🧭 EDITORIAL VIEW

4 象限ごとの選び方ガイド

🏆 左上：コスパ最強象限

DeepSeek V4 / Qwen3.7 Max / Gemini 3.5 Flash

高スコア × 低価格の理想ゾーン。大量処理・API バックエンド・社内自動化に最適。ただし日本語性能・サポート品質は別途確認が必要（特に中国系オープンモデル）。

💎 右上：高性能・高価格象限

Claude Fable 5 / Opus 4.8 / GPT-5.6 Sol / Gemini 3.1 Pro

最高性能ゾーン。重要判断・高品質コード生成・専門レポート作成など、料金より品質を重視する場面で。「最後の砦」として要所で使う運用が現実解。

🪙 左下：軽量・低コスト象限

Mistral Large 3

性能・価格ともに中庸。ハイエンドが過剰な定型タスク、欧州市場でのデータレジデンシー要件などで選ばれる。汎用エージェントのバックボーンとしてもアリ。

⚠️ 右下：要再検討象限

該当モデル少数

高価格なのにスコアが低い「コスパ悪い」象限。2026年7月時点の主要モデルにはほぼ該当無し。ただし「特定ベンチに弱い割に高い」モデルは要警戒。用途別ベンチ確認を必ず。

この集計について

知能スコアと AIコスパ指数の算出： 縦軸の知能スコアは、第三者機関 Artificial Analysis の Intelligence Index v4.1（第三者測定）をそのまま採用しています。データ表の AIコスパ指数は、この知能スコア（最高知能を100とした相対値）を0.6、料金の安さ（入力3:出力1のブレンド料金・対数スケール）を0.4で加重した ai-garage 編集部の独自統合スコアです（算出式の詳細は AIモデル比較表）。

掲載対象について： 知能スコアは Artificial Analysis Intelligence Index v4.1 を採用（第三者測定）。Llama 4 Maverick は API 料金未公表のため散布図対象外。

より厳密な指標を見たい方： 独立分析サイト Artificial Analysis が、より多くのベンチマーク（HumanEval / MATH / HLE / LiveCodeBench 含む）を加重平均した Intelligence Index を公開しています。人間評価ベースなら LMArena を併用するとさらに精度が上がります。

注意点： 知能スコアは複数評価を1つに束ねた合成指標のため、得意分野（コーディング偏重 vs 数学偏重 vs 汎用）の違いは1つの数値では表現できません。実務用途では AIモデル比較表の個別指標、指標源ガイドの使い分けと合わせて参照してください。

更新頻度： 月次でモデル追加・スコア再集計。