INDEPENDENT COMPARISON

主要AIモデル
独自比較表

ai-garage 編集部による独自集計。フロンティアモデル10本の料金 / コンテキスト長 / 主要ベンチマークを横並びで比較。数字には一次ソースをすべて明記しています。

最終更新：2026-05-14（編集部集計）

QUICK TAKEAWAYS

💰 入力料金安い順（USD/1M tok）

コスパで選ぶなら

1. Gemini 3.1 Flash $0.3
2. Qwen3.6-27B $0.4
3. DeepSeek-V4 Preview $0.55
4. GPT-5.5 $1.25
5. Gemini 3.1 Pro $2

📏 コンテキスト長長い順

長文を読ませるなら

1. Llama 5 5000K
2. Gemini 3.1 Pro 1049K
3. Gemini 3.1 Flash 1049K
4. Claude Opus 4.7 1000K
5. Claude Sonnet 4.6 1000K

⌨️ SWE-Bench Verified 高い順

コードを書かせるなら

1. GPT-5.5 88.7%
2. Claude Opus 4.7 87.6%
3. Gemini 3.1 Pro 80.6%
4. Claude Sonnet 4.6 79.6%
5. Llama 5 75%

BENCHMARK CHARTS

ベンチマーク横並び

2026年5月時点の公表値を編集部が集計。バー長が長いほど高スコア。

SWE-Bench Verified（実OSSバグ修正テスト）

実在するOSSのバグをAIが直せるかを測る

出典：各社公式発表 + SWE-Bench リーダーボード（2026-05時点）

MMLU（総合学力テスト）

57科目の選択問題でAIの幅広い知識を測る

出典：各社公式発表（2026-05時点）

GPQA Diamond（博士レベル理系問題）

ググっても答えが出ない難問。推論モデルの真価が問われる

出典：各社公式発表（2026-05時点）

AIME 2024-2025（数学オリンピック予選）

推論モデルの数学力を測る代表的テスト

出典：各社公式発表（2026-05時点）

PRICING SCATTER

料金マップ

入力料金と出力料金の2軸で配置。左下＝割安、右上＝高額。

API 料金散布図（USD / 1M tokens）

入力・出力それぞれの料金を2軸で可視化

X軸：入力料金（USD / 1M tokens） Y軸：出力料金（USD / 1M tokens） ← 左下＝安い

出典：各社公式料金ページ（2026-05時点）。Llama等のオープンウェイトモデルは API 提供価格が公開されていないため除外。

COMPARISON TABLE

全項目比較表

横スクロール可能。バーは各カテゴリの最大値に対する相対値です。

モデル	バージョン	公開	コンテキスト	入力 $/1M	出力 $/1M	SWE-Bench	MMLU	GPQA	AIME	推論モデル
GPT-5.5 OpenAI	GPT-5.5 / 5.5 Pro	2026-04-23	400K	$1.25	$10	88.7%	91.2%	85.7%	96.7%	YES
Claude Opus 4.7 Anthropic	Opus 4.7	2026-04-16	1000K	$5	$25	87.6%	88%	79.6%	92%	YES
Gemini 3.1 Pro Google	3.1 Pro	2026-02-19	1049K	$2	$12	80.6%	91%	94.3%	95%	YES
Claude Sonnet 4.6 Anthropic	Sonnet 4.6	2026-02-17	1000K	$3	$15	79.6%	86%	89.9%	89%	YES
Llama 5 Meta	Llama 5	2026-04-08	5000K	—	—	75%	87%	80%	82%	YES
Grok 4.20 Beta 2 xAI	Grok 4.20 Beta 2	2026-03-03	256K	$3	$15	72%	86.5%	87.5%	95%	YES
DeepSeek-V4 Preview DeepSeek	V4-Pro / V4-Flash	2026-04-24	1000K	$0.55	$2.19	65%	86%	78%	88%	YES
Gemini 3.1 Flash Google	3.1 Flash	2026-04	1049K	$0.3	$2.5	65%	84%	78%	80%	YES
Mistral Large 3 Mistral AI	Large 3 (MoE 675B/41B active)	2025-12	256K	$2	$6	60%	81%	73%	75%	YES
Qwen3.6-27B Alibaba	Qwen3.6-27B (dense)	2026-04-22	256K	$0.4	$2	—	85%	82%	88%	YES

表の読み方： コンテキスト長＝1度に読める文字数の上限。SWE-Bench Verified＝実OSS バグ修正テスト。MMLU＝総合知識テスト。GPQA＝博士レベル理系問題。AIME＝米数学オリンピック予選。推論モデル＝答える前に内部で長く考えるタイプ。

PRIMARY SOURCES

一次ソース

本比較表に掲載した数字の出典。すべて公式発表または査読付き論文。

GPT-5.5

OpenAI

注：ChatGPT デフォルトは GPT-5.5 Instant（2026-05-05 切替）。Codex も GPT-5.5 統合（GPT-5.3-Codex 後継）。

Claude Opus 4.7

Anthropic

注：1M tokens context、adaptive thinking 搭載。LMArena coding 部門 Elo 1569 で首位（claude-opus-4-7-thinking）。

Gemini 3.1 Pro

Google

注：ARC-AGI-2 77.1%、LiveCodeBench Elo 2887。200k 超は $4/$18。65k 出力対応。

Claude Sonnet 4.6

Anthropic

注：Opus 4.7 の半額以下で約95%の性能を出すコスパ枠。日常使い・業務用途の本命。1M tokens context、adaptive thinking 搭載。

Llama 5

編集部のコメント

「最強モデル」は存在しません。 用途で答えが変わるのが2026年5月時点の特徴です。コーディングなら GPT-5.5 / Claude Opus 4.7、長文処理なら Gemini 2.5 Pro / Llama 4 Maverick、コスト重視なら DeepSeek-R1 / Qwen3、と棚割を意識した選定が現実解です。

ベンチマークと実用は別物。 SWE-Bench で1〜2%差は誤差レベル。実際の開発現場では「指示の通り方」「コードの読みやすさ」「修正の的確さ」の方が体感差に直結します。本比較表は候補を絞る一次フィルタとして使うのが正しい使い方です。

料金は変動が激しい。 2025年中に各社が2〜3回値下げしており、入力料金は1年前の半額〜1/10になっています。月次レポートで最新値を追跡します。

本表の集計について： 2026年5月13日時点で各社が公表している数値を、ai-garage 編集部が集計しました。次回更新：月次レポートと合わせて月初に再集計予定。

誤り・更新情報があれば @tenbin_maru のDM までご連絡ください。

主要AIモデル 独自比較表

コスパで選ぶなら

長文を読ませるなら

コードを書かせるなら

ベンチマーク横並び

SWE-Bench Verified（実OSSバグ修正テスト）

MMLU（総合学力テスト）

GPQA Diamond（博士レベル理系問題）

AIME 2024-2025（数学オリンピック予選）

料金マップ

API 料金散布図（USD / 1M tokens）

全項目比較表

一次ソース

編集部のコメント

主要AIモデル
独自比較表