ai-garage
ベンチマーク

HumanEvalとは?

OpenAIが作ったコード生成の定番テスト。

⚡ 30秒でわかる

HumanEval の主なポイント

  • 1 Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。
  • 2 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。

📖 詳しく

HumanEval とは

Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。

❓ FAQ

よくある質問

Q. HumanEval とは何ですか?
A. OpenAIが作ったコード生成の定番テスト。 Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。
Q. HumanEval の主な特徴は?
A. Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。
Q. HumanEval に関連する用語は?
A. 「SWE-Bench」、「ベンチマーク」などが関連しています。

🔗 関連

あわせて読みたい

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →