ai-garage
ベンチマーク 🔥 HOT

Aider Polyglot Leaderboardとは?

別名: Aider Leaderboard / Aider Bench

AI コーディングツール Aider が運営する、実コード修正タスクで AI の「実用コーディング力」を測るベンチ。

⚡ 30秒でわかる

Aider Polyglot Leaderboard の主なポイント

  • 1 複数言語(Python / JS / Rust / Go / C++)の実バグ修正タスク
  • 2 対話的修正フローを評価、SWE-Bench とは別軸
  • 3 Claude Opus・GPT-5.5・Gemini Pro が常時上位
  • 4 オープンソースで再現可能、Anthropic / OpenAI も社内テストに利用
  • 5 Aider 開発者の Paul Gauthier が運営、月次更新

📖 詳しく

Aider Polyglot Leaderboard とは

Aider Polyglot Leaderboard は、オープンソース AI コーディングツール Aider が運営する、 AI モデルの「実用的なコーディング能力」を測るベンチマークです。 Python・JavaScript・Rust・Go・C++ など複数言語のリポジトリで、実際のバグ修正タスクを AI に解かせて 正答率を測定します。SWE-Bench との違いは「対話的に修正案を出して、人間が承認して、また修正」という Aider の 使用フローに沿った評価で、エンジニアが実際に AI 支援開発するときの体感に近いスコアが出ます。 Anthropic Claude Code・OpenAI Codex の新バージョンリリース時、常にこのボードでの順位が話題になります。

❓ FAQ

よくある質問

Q. SWE-Bench と Aider Leaderboard、何が違う?
A. SWE-Bench は『一発で解決できるか』を測る単発タスク。Aider は『対話的に何回か修正して最終的に解けるか』を測ります。 Aider の方が実際の開発体験に近く、Claude Code や Codex の使い心地と相関が高い傾向です。
Q. 自分のプロジェクトでも使える?
A. Aider 自体は誰でも使える OSS のコーディングアシスタント(pip install aider-chat)。 ローカルで自分のリポジトリに対して動かせます。Leaderboard は Aider 公式の標準テストです。
Q. なぜコーディング AI を選ぶときこの指標を見るべき?
A. 実際の開発で AI に求められるのは『一発正解』ではなく『対話で詰めて完成させる』こと。 Aider Leaderboard はその実態を反映するため、Cursor・Claude Code・Codex を選ぶときの判断材料として SWE-Bench より体感に近いスコアになります。

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →