ベンチマーク
HumanEvalとは?
OpenAIが作ったコード生成の定番テスト。
⚡ 30秒でわかる
HumanEval の主なポイント
- 1 Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。
- 2 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。
📖 詳しく
HumanEval とは
Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。
今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。
❓ FAQ
よくある質問
- Q. HumanEval とは何ですか?
- A. OpenAIが作ったコード生成の定番テスト。 Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。
- Q. HumanEval の主な特徴は?
- A. Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。
- Q. HumanEval に関連する用語は?
- A. 「SWE-Bench」、「ベンチマーク」などが関連しています。