ai-garage

INDEPENDENT COMPARISON

主要AIモデル
独自比較表

ai-garage 編集部による独自集計。 フロンティアモデル10本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。 数字には一次ソースをすべて明記しています。

最終更新:2026-05-14(編集部集計)

QUICK TAKEAWAYS

💰 入力料金 安い順(USD/1M tok)

コスパで選ぶなら

  1. 1. Gemini 3.1 Flash $0.3
  2. 2. Qwen3.6-27B $0.4
  3. 3. DeepSeek-V4 Preview $0.55
  4. 4. GPT-5.5 $1.25
  5. 5. Gemini 3.1 Pro $2

📏 コンテキスト長 長い順

長文を読ませるなら

  1. 1. Llama 5 5000K
  2. 2. Gemini 3.1 Pro 1049K
  3. 3. Gemini 3.1 Flash 1049K
  4. 4. Claude Opus 4.7 1000K
  5. 5. Claude Sonnet 4.6 1000K

⌨️ SWE-Bench Verified 高い順

コードを書かせるなら

  1. 1. GPT-5.5 88.7%
  2. 2. Claude Opus 4.7 87.6%
  3. 3. Gemini 3.1 Pro 80.6%
  4. 4. Claude Sonnet 4.6 79.6%
  5. 5. Llama 5 75%

BENCHMARK CHARTS

ベンチマーク横並び

2026年5月時点の公表値を編集部が集計。バー長が長いほど高スコア。

SWE-Bench Verified(実OSSバグ修正テスト)

実在するOSSのバグをAIが直せるかを測る

22% 44% 67% 89% GPT-5.5 TOP 88.7% Claude Opus 4.7 87.6% Gemini 3.1 Pro 80.6% Claude Sonnet 4.6 79.6% Llama 5 75.0% Grok 4.20 Beta 2 72.0% DeepSeek-V4 Preview 65.0% Gemini 3.1 Flash 65.0% Mistral Large 3 60.0%

出典:各社公式発表 + SWE-Bench リーダーボード(2026-05時点)

MMLU(総合学力テスト)

57科目の選択問題でAIの幅広い知識を測る

23% 46% 68% 91% GPT-5.5 TOP 91.2% Gemini 3.1 Pro 91.0% Claude Opus 4.7 88.0% Llama 5 87.0% Grok 4.20 Beta 2 86.5% Claude Sonnet 4.6 86.0% DeepSeek-V4 Preview 86.0% Qwen3.6-27B 85.0% Gemini 3.1 Flash 84.0% Mistral Large 3 81.0%

出典:各社公式発表(2026-05時点)

GPQA Diamond(博士レベル理系問題)

ググっても答えが出ない難問。推論モデルの真価が問われる

24% 47% 71% 94% Gemini 3.1 Pro TOP 94.3% Claude Sonnet 4.6 89.9% Grok 4.20 Beta 2 87.5% GPT-5.5 85.7% Qwen3.6-27B 82.0% Llama 5 80.0% Claude Opus 4.7 79.6% DeepSeek-V4 Preview 78.0% Gemini 3.1 Flash 78.0% Mistral Large 3 73.0%

出典:各社公式発表(2026-05時点)

AIME 2024-2025(数学オリンピック予選)

推論モデルの数学力を測る代表的テスト

24% 48% 73% 97% GPT-5.5 TOP 96.7% Gemini 3.1 Pro 95.0% Grok 4.20 Beta 2 95.0% Claude Opus 4.7 92.0% Claude Sonnet 4.6 89.0% DeepSeek-V4 Preview 88.0% Qwen3.6-27B 88.0% Llama 5 82.0% Gemini 3.1 Flash 80.0% Mistral Large 3 75.0%

出典:各社公式発表(2026-05時点)

PRICING SCATTER

料金マップ

入力料金と出力料金の2軸で配置。左下=割安、右上=高額

API 料金散布図(USD / 1M tokens)

入力・出力それぞれの料金を2軸で可視化

X軸:入力料金(USD / 1M tokens) Y軸:出力料金(USD / 1M tokens) ← 左下=安い
$0.0 $1.4 $2.9 $4.3 $5.8 $0 $7 $14 $22 $29 割安ゾーン GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro Claude Sonnet 4.6 Grok 4.20 Beta 2 DeepSeek-V4 Preview Gemini 3.1 Flash Mistral Large 3 Qwen3.6-27B 入力料金($/1M)→ 出力料金($/1M)↑

出典:各社公式料金ページ(2026-05時点)。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。

COMPARISON TABLE

全項目比較表

横スクロール可能。バーは各カテゴリの最大値に対する相対値です。

モデル バージョン 公開 コンテキスト 入力 $/1M 出力 $/1M SWE-Bench MMLU GPQA AIME 推論モデル
GPT-5.5

OpenAI

GPT-5.5 / 5.5 Pro 2026-04-23 400K $1.25 $10
88.7%
91.2%
85.7%
96.7%
YES
Claude Opus 4.7

Anthropic

Opus 4.7 2026-04-16 1000K $5 $25
87.6%
88%
79.6%
92%
YES
Gemini 3.1 Pro

Google

3.1 Pro 2026-02-19 1049K $2 $12
80.6%
91%
94.3%
95%
YES
Claude Sonnet 4.6

Anthropic

Sonnet 4.6 2026-02-17 1000K $3 $15
79.6%
86%
89.9%
89%
YES
Llama 5

Meta

Llama 5 2026-04-08 5000K
75%
87%
80%
82%
YES
Grok 4.20 Beta 2

xAI

Grok 4.20 Beta 2 2026-03-03 256K $3 $15
72%
86.5%
87.5%
95%
YES
DeepSeek-V4 Preview

DeepSeek

V4-Pro / V4-Flash 2026-04-24 1000K $0.55 $2.19
65%
86%
78%
88%
YES
Gemini 3.1 Flash

Google

3.1 Flash 2026-04 1049K $0.3 $2.5
65%
84%
78%
80%
YES
Mistral Large 3

Mistral AI

Large 3 (MoE 675B/41B active) 2025-12 256K $2 $6
60%
81%
73%
75%
YES
Qwen3.6-27B

Alibaba

Qwen3.6-27B (dense) 2026-04-22 256K $0.4 $2
85%
82%
88%
YES

表の読み方: コンテキスト長=1度に読める文字数の上限。SWE-Bench Verified=実OSS バグ修正テスト。MMLU=総合知識テスト。GPQA=博士レベル理系問題。AIME=米数学オリンピック予選。 推論モデル=答える前に内部で長く考えるタイプ。

PRIMARY SOURCES

一次ソース

本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。

GPT-5.5

OpenAI

注:ChatGPT デフォルトは GPT-5.5 Instant(2026-05-05 切替)。Codex も GPT-5.5 統合(GPT-5.3-Codex 後継)。

Claude Opus 4.7

Anthropic

注:1M tokens context、adaptive thinking 搭載。LMArena coding 部門 Elo 1569 で首位(claude-opus-4-7-thinking)。

Gemini 3.1 Pro

Google

注:ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。

Claude Sonnet 4.6

Anthropic

注:Opus 4.7 の半額以下で約95%の性能を出すコスパ枠。日常使い・業務用途の本命。1M tokens context、adaptive thinking 搭載。

Llama 5

Meta

注:600B+ params、5M tokens context。Blackwell B200 50万基で訓練、Llama Guard 4 同梱。オープンウェイト(自前運用前提)。

Grok 4.20 Beta 2

xAI

注:Grok 5(6T params MoE / Colossus 2 訓練)は2026 Q2 予定で未リリース。

DeepSeek-V4 Preview

DeepSeek

注:V4-Pro 1.6T (49B active) / V4-Flash 284B (13B active)。CSA+HCA ハイブリッドアテンション。R2 は未リリース。中国製のため業務利用時は規約確認を。

Gemini 3.1 Flash

Google

注:Pro の高速・低コスト版。コンテキストは Pro と同等 1M tokens。多用途のコスパ枠として AI Studio 経由で広く使われる。

Mistral Large 3

Mistral AI

注:フランス発、EU 規制対応で欧州エンタープライズの本命。675B 総 / 41B アクティブの MoE。Voxtral TTS や Ministral 3 などラインナップも拡充。

Qwen3.6-27B

Alibaba

注:Apache 2.0 で完全オープンウェイト。dense 27B でありながら agentic coding ベンチで 397B MoE を上回る。efficient 版 36B-A3B MoE もあり。

EDITOR'S NOTE

編集部のコメント

「最強モデル」は存在しません。 用途で答えが変わるのが2026年5月時点の特徴です。コーディングなら GPT-5.5 / Claude Opus 4.7、長文処理なら Gemini 2.5 Pro / Llama 4 Maverick、 コスト重視なら DeepSeek-R1 / Qwen3、と棚割を意識した選定が現実解です。

ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。 本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。

料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。

本表の集計について: 2026年5月13日時点で各社が公表している数値を、ai-garage 編集部が集計しました。 次回更新:月次レポートと合わせて月初に再集計予定。

誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →