ベンチマーク 🔥 HOT
Aider Polyglot Leaderboardとは?
別名: Aider Leaderboard / Aider Bench
AI コーディングツール Aider が運営する、実コード修正タスクで AI の「実用コーディング力」を測るベンチ。
⚡ 30秒でわかる
Aider Polyglot Leaderboard の主なポイント
- 1 複数言語(Python / JS / Rust / Go / C++)の実バグ修正タスク
- 2 対話的修正フローを評価、SWE-Bench とは別軸
- 3 Claude Opus・GPT-5.5・Gemini Pro が常時上位
- 4 オープンソースで再現可能、Anthropic / OpenAI も社内テストに利用
- 5 Aider 開発者の Paul Gauthier が運営、月次更新
📖 詳しく
Aider Polyglot Leaderboard とは
Aider Polyglot Leaderboard は、オープンソース AI コーディングツール Aider が運営する、
AI モデルの「実用的なコーディング能力」を測るベンチマークです。
Python・JavaScript・Rust・Go・C++ など複数言語のリポジトリで、実際のバグ修正タスクを AI に解かせて
正答率を測定します。SWE-Bench との違いは「対話的に修正案を出して、人間が承認して、また修正」という Aider の
使用フローに沿った評価で、エンジニアが実際に AI 支援開発するときの体感に近いスコアが出ます。
Anthropic Claude Code・OpenAI Codex の新バージョンリリース時、常にこのボードでの順位が話題になります。
❓ FAQ
よくある質問
- Q. SWE-Bench と Aider Leaderboard、何が違う?
- A. SWE-Bench は『一発で解決できるか』を測る単発タスク。Aider は『対話的に何回か修正して最終的に解けるか』を測ります。 Aider の方が実際の開発体験に近く、Claude Code や Codex の使い心地と相関が高い傾向です。
- Q. 自分のプロジェクトでも使える?
- A. Aider 自体は誰でも使える OSS のコーディングアシスタント(pip install aider-chat)。 ローカルで自分のリポジトリに対して動かせます。Leaderboard は Aider 公式の標準テストです。
- Q. なぜコーディング AI を選ぶときこの指標を見るべき?
- A. 実際の開発で AI に求められるのは『一発正解』ではなく『対話で詰めて完成させる』こと。 Aider Leaderboard はその実態を反映するため、Cursor・Claude Code・Codex を選ぶときの判断材料として SWE-Bench より体感に近いスコアになります。
🔗 関連