HumanEval とは何ですか？

AI に Python の関数を書かせて、その正しさを自動テストで判定するコード生成ベンチマークです。2021 年に OpenAI が公開し、164 問の課題で構成されます。AI のプログラミング能力を数値で比較するための、業界標準のものさしとして広く使われてきました。

HumanEval と SWE-Bench の違いは？

HumanEval は『短い 1 つの関数を正しく書けるか』を測る基礎的なテストです。一方 SWE-Bench は『実在する OSS のバグを丸ごと直せるか』というはるかに実戦的で難しい課題を測ります。今の高性能モデルでは HumanEval は満点近くで差がつかないため、評価の主役は SWE-Bench 側に移ってきています。

pass@1 や pass@k という数字は何を意味しますか？

pass@k は『AI に k 回コードを書かせて、そのうち 1 回でも正解できる確率』を表す指標です。pass@1 は一発勝負での正答率なので、実用上もっとも重視されます。たとえば pass@1 が 90% なら、一度の生成で 9 割の問題を正しく解けるという意味です。

初心者は HumanEval の数字をどう見ればいい？

『コード生成 AI の基礎体力テスト』くらいに捉えるのがおすすめです。ただし最新モデルはどれも高得点で横並びになっているため、モデル選びの決め手にはなりにくい点に注意してください。実際の開発力を比べたいときは SWE-Bench など、より難しいベンチマークのスコアも合わせて確認しましょう。

ベンチマーク

HumanEvalとは？

OpenAIが作ったコード生成の定番テスト。

⚡ 30秒でわかる

HumanEval の主なポイント

1 OpenAI が 2021 年に発表した、コード生成 AI を評価する定番ベンチマーク。
2 164 個の Python 関数問題を解かせ、付属のユニットテストが全部通れば正解とする。
3 採点指標は pass@k（k 回生成して 1 回でも正解できる確率）。
4 最新モデルはほぼ満点に近く、差がつきにくくなっている（性能が飽和ぎみ）。
5 より実践的な SWE-Bench / LiveCodeBench などが後継として使われている。

📖 詳しく

HumanEval とは

HumanEval（ヒューマンイーバル）は、AI にプログラムを書かせて、その答えが正しく動くかをテストで判定する、コード生成の定番ベンチマークです。2021 年に OpenAI が発表したもので、164 個の Python 関数問題が用意され、AI が書いたコードが付属のユニットテスト（自動チェック用の小さなテスト）を全部通れば正解とカウントします。AI コーディングの「実力」を客観的な数字で比べられる初めての標準テストとして広まり、各モデルの強さを語るときの共通ものさしになりました。たとえるなら、料理人に「決められたお題の料理を作らせて、味見係（テスト）が合格を出すか」で腕前を採点するイメージです。ただし最近の高性能モデルはほぼ満点を取ってしまい差がつかなくなったため、現在は実際の GitHub のバグ修正を解かせる SWE-Bench など、より難しい後継ベンチマークが主役になりつつあります。

❓ FAQ

よくある質問

Q. HumanEval とは何ですか？: A. AI に Python の関数を書かせて、その正しさを自動テストで判定するコード生成ベンチマークです。2021 年に OpenAI が公開し、164 問の課題で構成されます。AI のプログラミング能力を数値で比較するための、業界標準のものさしとして広く使われてきました。
Q. HumanEval と SWE-Bench の違いは？: A. HumanEval は『短い 1 つの関数を正しく書けるか』を測る基礎的なテストです。一方 SWE-Bench は『実在する OSS のバグを丸ごと直せるか』というはるかに実戦的で難しい課題を測ります。今の高性能モデルでは HumanEval は満点近くで差がつかないため、評価の主役は SWE-Bench 側に移ってきています。
Q. pass@1 や pass@k という数字は何を意味しますか？: A. pass@k は『AI に k 回コードを書かせて、そのうち 1 回でも正解できる確率』を表す指標です。pass@1 は一発勝負での正答率なので、実用上もっとも重視されます。たとえば pass@1 が 90% なら、一度の生成で 9 割の問題を正しく解けるという意味です。
Q. 初心者は HumanEval の数字をどう見ればいい？: A. 『コード生成 AI の基礎体力テスト』くらいに捉えるのがおすすめです。ただし最新モデルはどれも高得点で横並びになっているため、モデル選びの決め手にはなりにくい点に注意してください。実際の開発力を比べたいときは SWE-Bench など、より難しいベンチマークのスコアも合わせて確認しましょう。

🔗 関連

あわせて読みたい

「HumanEval」が出てくるニュース

2026/6/18

AIのコーディング力、5年でなんでこんなに伸びたの？NTT「tsuzumi 2」開発者がタネ明かし——てんびん丸が整理するんだ

📎 SOURCES

一次ソース

ベンチマークカテゴリの用語

Aider Polyglot Leaderboard AIME AIコスパ指数 Chatbot Arena GPQA Humanity's Last Exam（HLE） Intelligence Index LMArena（Chatbot Arena） MMLU SWE-Bench SWE-Bench Pro Terminal-Bench ベンチマークロングコンテキスト評価

← 前の用語

GPQA

次の用語 →

Humanity's Last Exam（HLE）

FOR BEGINNERS

AI初心者ガイド

用語が多くて混乱したら、まず全体像から。AI初心者が「何から始める？」を5分で。

GLOSSARY

AI用語集一覧へ

94語をカテゴリ・検索で引ける。気になる用語をまとめてチェック。