ベンチマーク 🔥 HOT
SWE-Benchとは?
別名: SWE-Bench Verified
実際のGitHubバグをAIが直せるかを測る。
⚡ 30秒でわかる
SWE-Bench の主なポイント
- 1 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。
- 2 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。
📖 詳しく
SWE-Bench とは
実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。
「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。
❓ FAQ
よくある質問
- Q. SWE-Bench とは何ですか?
- A. 実際のGitHubバグをAIが直せるかを測る。 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。
- Q. SWE-Bench の主な特徴は?
- A. 実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。
- Q. SWE-Bench に関連する用語は?
- A. 「ベンチマーク」などが関連しています。
- Q. SWE-Bench の別名は?
- A. SWE-Bench Verified とも呼ばれます。