INDEPENDENT COMPARISON
主要AIモデル
独自比較表
ai-garage 編集部による独自集計。 フロンティアモデル10本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。 数字には一次ソースをすべて明記しています。
最終更新:2026-05-14(編集部集計)
QUICK TAKEAWAYS
💰 入力料金 安い順(USD/1M tok)
コスパで選ぶなら
- 1. Gemini 3.1 Flash $0.3
- 2. Qwen3.6-27B $0.4
- 3. DeepSeek-V4 Preview $0.55
- 4. GPT-5.5 $1.25
- 5. Gemini 3.1 Pro $2
📏 コンテキスト長 長い順
長文を読ませるなら
- 1. Llama 5 5000K
- 2. Gemini 3.1 Pro 1049K
- 3. Gemini 3.1 Flash 1049K
- 4. Claude Opus 4.7 1000K
- 5. Claude Sonnet 4.6 1000K
⌨️ SWE-Bench Verified 高い順
コードを書かせるなら
- 1. GPT-5.5 88.7%
- 2. Claude Opus 4.7 87.6%
- 3. Gemini 3.1 Pro 80.6%
- 4. Claude Sonnet 4.6 79.6%
- 5. Llama 5 75%
BENCHMARK CHARTS
ベンチマーク横並び
2026年5月時点の公表値を編集部が集計。バー長が長いほど高スコア。
SWE-Bench Verified(実OSSバグ修正テスト)
実在するOSSのバグをAIが直せるかを測る
出典:各社公式発表 + SWE-Bench リーダーボード(2026-05時点)
MMLU(総合学力テスト)
57科目の選択問題でAIの幅広い知識を測る
出典:各社公式発表(2026-05時点)
GPQA Diamond(博士レベル理系問題)
ググっても答えが出ない難問。推論モデルの真価が問われる
出典:各社公式発表(2026-05時点)
AIME 2024-2025(数学オリンピック予選)
推論モデルの数学力を測る代表的テスト
出典:各社公式発表(2026-05時点)
PRICING SCATTER
料金マップ
入力料金と出力料金の2軸で配置。左下=割安、右上=高額。
API 料金散布図(USD / 1M tokens)
入力・出力それぞれの料金を2軸で可視化
出典:各社公式料金ページ(2026-05時点)。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。
COMPARISON TABLE
全項目比較表
横スクロール可能。バーは各カテゴリの最大値に対する相対値です。
| モデル | バージョン | 公開 | コンテキスト | 入力 $/1M | 出力 $/1M | SWE-Bench | MMLU | GPQA | AIME | 推論モデル |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.5 OpenAI | GPT-5.5 / 5.5 Pro | 2026-04-23 | 400K | $1.25 | $10 | | | | | YES |
| Claude Opus 4.7 Anthropic | Opus 4.7 | 2026-04-16 | 1000K | $5 | $25 | | | | | YES |
| Gemini 3.1 Pro | 3.1 Pro | 2026-02-19 | 1049K | $2 | $12 | | | | | YES |
| Claude Sonnet 4.6 Anthropic | Sonnet 4.6 | 2026-02-17 | 1000K | $3 | $15 | | | | | YES |
| Llama 5 Meta | Llama 5 | 2026-04-08 | 5000K | — | — | | | | | YES |
| Grok 4.20 Beta 2 xAI | Grok 4.20 Beta 2 | 2026-03-03 | 256K | $3 | $15 | | | | | YES |
| DeepSeek-V4 Preview DeepSeek | V4-Pro / V4-Flash | 2026-04-24 | 1000K | $0.55 | $2.19 | | | | | YES |
| Gemini 3.1 Flash | 3.1 Flash | 2026-04 | 1049K | $0.3 | $2.5 | | | | | YES |
| Mistral Large 3 Mistral AI | Large 3 (MoE 675B/41B active) | 2025-12 | 256K | $2 | $6 | | | | | YES |
| Qwen3.6-27B Alibaba | Qwen3.6-27B (dense) | 2026-04-22 | 256K | $0.4 | $2 | — | | | | YES |
表の読み方: コンテキスト長=1度に読める文字数の上限。SWE-Bench Verified=実OSS バグ修正テスト。MMLU=総合知識テスト。GPQA=博士レベル理系問題。AIME=米数学オリンピック予選。 推論モデル=答える前に内部で長く考えるタイプ。
PRIMARY SOURCES
一次ソース
本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。
GPT-5.5
OpenAI注:ChatGPT デフォルトは GPT-5.5 Instant(2026-05-05 切替)。Codex も GPT-5.5 統合(GPT-5.3-Codex 後継)。
Claude Opus 4.7
Anthropic注:1M tokens context、adaptive thinking 搭載。LMArena coding 部門 Elo 1569 で首位(claude-opus-4-7-thinking)。
Gemini 3.1 Pro
Google注:ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。
Claude Sonnet 4.6
Anthropic注:Opus 4.7 の半額以下で約95%の性能を出すコスパ枠。日常使い・業務用途の本命。1M tokens context、adaptive thinking 搭載。
Llama 5
Meta注:600B+ params、5M tokens context。Blackwell B200 50万基で訓練、Llama Guard 4 同梱。オープンウェイト(自前運用前提)。
Grok 4.20 Beta 2
xAI注:Grok 5(6T params MoE / Colossus 2 訓練)は2026 Q2 予定で未リリース。
DeepSeek-V4 Preview
DeepSeek注:V4-Pro 1.6T (49B active) / V4-Flash 284B (13B active)。CSA+HCA ハイブリッドアテンション。R2 は未リリース。中国製のため業務利用時は規約確認を。
Gemini 3.1 Flash
Google注:Pro の高速・低コスト版。コンテキストは Pro と同等 1M tokens。多用途のコスパ枠として AI Studio 経由で広く使われる。
Mistral Large 3
Mistral AI注:フランス発、EU 規制対応で欧州エンタープライズの本命。675B 総 / 41B アクティブの MoE。Voxtral TTS や Ministral 3 などラインナップも拡充。
Qwen3.6-27B
Alibaba注:Apache 2.0 で完全オープンウェイト。dense 27B でありながら agentic coding ベンチで 397B MoE を上回る。efficient 版 36B-A3B MoE もあり。
EDITOR'S NOTE
編集部のコメント
「最強モデル」は存在しません。 用途で答えが変わるのが2026年5月時点の特徴です。コーディングなら GPT-5.5 / Claude Opus 4.7、長文処理なら Gemini 2.5 Pro / Llama 4 Maverick、 コスト重視なら DeepSeek-R1 / Qwen3、と棚割を意識した選定が現実解です。
ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。 本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。
料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。
本表の集計について: 2026年5月13日時点で各社が公表している数値を、ai-garage 編集部が集計しました。 次回更新:月次レポートと合わせて月初に再集計予定。
誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。
関連ページ