SWE-Bench と Aider Leaderboard、何が違う？

SWE-Bench は『一発で解決できるか』を測る単発タスク。Aider は『対話的に何回か修正して最終的に解けるか』を測ります。 Aider の方が実際の開発体験に近く、Claude Code や Codex の使い心地と相関が高い傾向です。

自分のプロジェクトでも使える？

Aider 自体は誰でも使える OSS のコーディングアシスタント（pip install aider-chat）。ローカルで自分のリポジトリに対して動かせます。Leaderboard は Aider 公式の標準テストです。

なぜコーディング AI を選ぶときこの指標を見るべき？

実際の開発で AI に求められるのは『一発正解』ではなく『対話で詰めて完成させる』こと。 Aider Leaderboard はその実態を反映するため、Cursor・Claude Code・Codex を選ぶときの判断材料として SWE-Bench より体感に近いスコアになります。

ベンチマーク 🔥 HOT

Aider Polyglot Leaderboardとは？

Q: 自分のプロジェクトでも使える？

Aider 自体は誰でも使える OSS のコーディングアシスタント（pip install aider-chat）。 ローカルで自分のリポジトリに対して動かせます。Leaderboard は Aider 公式の標準テストです。

別名: Aider Leaderboard / Aider Bench

AI コーディングツール Aider が運営する、実コード修正タスクで AI の「実用コーディング力」を測るベンチ。

⚡ 30秒でわかる

Aider Polyglot Leaderboard の主なポイント

1 複数言語（Python / JS / Rust / Go / C++）の実バグ修正タスク
2 対話的修正フローを評価、SWE-Bench とは別軸
3 Claude Opus・GPT-5.6 Sol・Gemini Pro が常時上位
4 オープンソースで再現可能、Anthropic / OpenAI も社内テストに利用
5 Aider 開発者の Paul Gauthier が運営、月次更新

📖 詳しく

Aider Polyglot Leaderboard とは

Aider Polyglot Leaderboard は、オープンソース AI コーディングツール Aider が運営する、 AI モデルの「実用的なコーディング能力」を測るベンチマークです。 Python・JavaScript・Rust・Go・C++ など複数言語のリポジトリで、実際のバグ修正タスクを AI に解かせて正答率を測定します。SWE-Bench との違いは「対話的に修正案を出して、人間が承認して、また修正」という Aider の使用フローに沿った評価で、エンジニアが実際に AI 支援開発するときの体感に近いスコアが出ます。 Anthropic Claude Code・OpenAI Codex の新バージョンリリース時、常にこのボードでの順位が話題になります。

❓ FAQ

よくある質問

Q. SWE-Bench と Aider Leaderboard、何が違う？: A. SWE-Bench は『一発で解決できるか』を測る単発タスク。Aider は『対話的に何回か修正して最終的に解けるか』を測ります。 Aider の方が実際の開発体験に近く、Claude Code や Codex の使い心地と相関が高い傾向です。
Q. 自分のプロジェクトでも使える？: A. Aider 自体は誰でも使える OSS のコーディングアシスタント（pip install aider-chat）。ローカルで自分のリポジトリに対して動かせます。Leaderboard は Aider 公式の標準テストです。
Q. なぜコーディング AI を選ぶときこの指標を見るべき？: A. 実際の開発で AI に求められるのは『一発正解』ではなく『対話で詰めて完成させる』こと。 Aider Leaderboard はその実態を反映するため、Cursor・Claude Code・Codex を選ぶときの判断材料として SWE-Bench より体感に近いスコアになります。

🔗 関連

あわせて読みたい

一次ソース

ベンチマークカテゴリの用語

AIME AIコスパ指数 Chatbot Arena GPQA HumanEval Humanity's Last Exam（HLE） Intelligence Index LMArena（Chatbot Arena） MMLU SWE-Bench SWE-Bench Pro Terminal-Bench ベンチマークロングコンテキスト評価

次の用語 →

AIME

FOR BEGINNERS

AI初心者ガイド

用語が多くて混乱したら、まず全体像から。AI初心者が「何から始める？」を5分で。

GLOSSARY

AI用語集一覧へ

94語をカテゴリ・検索で引ける。気になる用語をまとめてチェック。