ai-garage
ベンチマーク 🔥 HOT

SWE-Benchとは?

別名: SWE-Bench Verified

実際のGitHubバグをAIが直せるかを測る。

⚡ 30秒でわかる

SWE-Bench の主なポイント

  • 1 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。
  • 2 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。

📖 詳しく

SWE-Bench とは

実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。

❓ FAQ

よくある質問

Q. SWE-Bench とは何ですか?
A. 実際のGitHubバグをAIが直せるかを測る。 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。
Q. SWE-Bench の主な特徴は?
A. 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。
Q. SWE-Bench に関連する用語は?
A. 「ベンチマーク」などが関連しています。
Q. SWE-Bench の別名は?
A. SWE-Bench Verified とも呼ばれます。

🔗 関連

あわせて読みたい

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →