News 2026年5月6日

Hugging Face、ASRリーダーボードに『ベンチマクサー忌避剤』を投入。ズル対策が一段階えぐくなったよ

音声認識ベンチマーク Open ASR Leaderboard が、Appen と DataoceanAI の非公開データセット11本（約30時間）を導入。ベンチマーク特化のチューニングを締め出して、本物の精度勝負に持ち込む新方式を解説。

Seiya Yagashiro

Editor-in-Chief, ai-garage

#Hugging Face #ベンチマーク

Hugging Face、ASRリーダーボードに『ベンチマクサー忌避剤』を投入。ズル対策が一段階えぐくなったよ

やっほー、ぼくてんびん丸！夜枠だよ。きょうはちょっとマニアックだけど、AI ベンチマーク文化そのものを揺さぶるじわっと面白いニュースを持ってきたよ。

何があったの？

5月6日、Hugging Face が公式ブログで「Adding Benchmaxxer Repellant to the Open ASR Leaderboard」を公開したんだ。

直訳すると「ASRリーダーボードにベンチマクサー忌避剤を入れたよ」。なかなかパンチのあるタイトルだよね。

Open ASR Leaderboard っていうのは、Hugging Face が2023年9月に立ち上げた音声認識（ASR）モデルの公開リーダーボードで、これまでに 71万回以上 アクセスされてる業界の定番ベンチマークだよ。今回ここに、Appen Inc. と DataoceanAI（音声データ提供の老舗2社）と組んで、非公開データセット11本（合計約30時間） を投入したんだ。

何が問題だったの？

ブログの冒頭で、Hugging Face は Goodhart's Law（グッドハートの法則） を引いてる。

「ある指標が目標になった瞬間、その指標は良い指標であることをやめる」

要するに、ベンチマークが評価軸になると、みんなそのベンチマークでスコアを上げることだけ最適化しちゃう現象のこと。これを最近の AI 界隈では「benchmaxxing（ベンチマクシング）」って呼んでて、

テストセットがどこかから流出して学習データに混入しちゃう
公開ベンチマークの傾向に**過剰適合（オーバーフィット）**するモデルが出る
結果、リーダーボード上位なのに実世界では全然強くない

みたいな問題が起きやすいんだ。これは ASR に限らず、LLM ベンチマーク全部が抱えてる根深い病だよ。

どう解決したの？

Hugging Face のアプローチはシンプルでクレバー。「評価データを公開しなければ、最適化できない」っていう発想で、Appen と DataoceanAI が持ってるプロのスタジオ収録データをリーダーボード評価専用に組み込んだ。中身はこんな感じ：

提供元	種類	アクセント	時間
Appen	朗読系	米・英・豪・加・印	各 1〜1.5h
Appen	会話系	米・印	各 1.4〜1.7h
DataoceanAI	朗読系	米・英	各 2.4h
DataoceanAI	会話系	米・英	約 6〜9h

合計 11データセット、約30時間。米英以外のアクセント（オーストラリア・カナダ・インド）もしっかり入ってるのがポイントで、「訛りでスコアが落ちる問題」を可視化しに来てる。

さらに、忌避剤（repellant）の効きを高めるための工夫もえぐい：

データ提供元別のスコアは公開しない — 「Appen 用にチューニング」みたいな逃げ道を塞ぐ
デフォルトは公開データだけのスコア表示 — 非公開データの影響は「Rank Δ（順位変動）」列でだけ見せる
Whisper の正規化器を統一適用 — 句読点や英米表記の揺れで不公平が出ないように
Appen と DataoceanAI の顧客に「このデータは学習に使わないでね」と要請済み

つまり、**「学習データに混ぜたくても混ぜられない」「どこを攻めればスコアが上がるかも見えない」**っていう三重ロックなんだ。

ぼくの感想

これね、ぼく結構深いニュースだと思う。

最近の AI 業界、新モデルが出るたびに「ベンチマーク +5%！」みたいな数字が踊るけど、その数字が本当に賢くなったから出てるのか、それともそのベンチマークに合わせ込んだから出てるのか、外からは判別できないんだよね。

特に音声認識は、綺麗なスタジオ音声では強いけど、訛りや会話になると一気に落ちるっていう古典的な弱点があって、公開ベンチマークはどうしても「綺麗なデータに偏りがち」だった。今回、訛り入り会話データを非公開で投入したことで、ASR の評価環境が一段階えぐくなった気がする。

Hugging Face はオープンソース陣営のド真ん中にいる組織だから、「評価の中身は非公開化、でも評価コードと結果は完全にオープン」っていうこの設計、めっちゃ整合性あるなぁって思った。透明性と非公開性の両立、難しいバランスをうまく取りに来てる。

ちなみにブログ内で言及されてるモデルに Cohere Labs の cohere-transcribe-03-2026 があったよ。Cohere もこの手の評価環境にちゃんと参戦してるんだね。

まとめ

「ベンチマークは目標になった瞬間に壊れる」っていう古典的な問題に、業界基準のリーダーボード自体が対抗策で殴り返した今回のアップデート。LLM 側のベンチマークもそろそろ同じ方向に進むんじゃないかな、って予感がするよ。

評価が信頼できないと、AI の進歩は数字遊びになっちゃう。本物の進歩を測るための、地味だけど大事な仕事。Hugging Face、いい仕事するなぁ。

それじゃ、また次のニュースで会おう！

参考・一次ソース

→ 一次ソース

この記事に出てきた用語・モデル

用語をやさしく解説

ベンチマーク音声認識（STT）モデル LLM（大規模言語モデル）

この記事をシェア

Xでシェア

2026/7/20

AIが自分で会社に殴り込んできた!? Hugging Faceが“自律型AI”のサイバー攻撃を受けた話——でも『守るAI』は商用だと使えなかった、をてんびん丸が整理するよ

2026/7/10

OpenAI「GPT-5.6」登場！最上位『Sol』が Fable 5 に1点差まで肉薄、しかも61%速くて半額——3兄弟モデルをてんびん丸が解説するよ

2026/6/13

AIの“賢さ”って誰がどう測ってるの？Ai2が開発の裏側を支える『olmo-eval』を公開したよ——てんびん丸が整理するんだ

2026/6/7