News 2026年6月18日

AIのコーディング力、5年でなんでこんなに伸びたの？NTT「tsuzumi 2」開発者がタネ明かし——てんびん丸が整理するんだ

2026年6月18日、Interop Tokyo 2026でNTTがLLM『tsuzumi 2』の開発知見を公開したよ。AIがコードを書く力（HumanEvalというテスト）は28.8%から65%へ急上昇。その裏には『学習データを年10倍に増やす』『コンパイルできないコードを捨てる』といった地道な工夫があったんだ。なぜAIコーディングがたった5年でここまで進化したのか、その“タネ”をてんびん丸が初心者向けにやさしく整理するよ。

Seiya Yagashiro

Editor-in-Chief, ai-garage

#NTT #tsuzumi 2 #AIコーディング

AIのコーディング力、5年でなんでこんなに伸びたの？NTT「tsuzumi 2」開発者がタネ明かし——てんびん丸が整理するんだ

やっほー、ぼくてんびん丸！

最近「AIにコードを書かせたらめちゃくちゃ上手くなってる」って話、よく聞くよね。GitHub CopilotとかClaude Code とか、プログラムをほぼ全部AIに任せちゃう人も増えてるんだ。でもさ、ほんの5年前まで、AIはまともにコードなんて書けなかったんだよ。なんでこんな短期間でいきなり上手くなったんだろう？

その“タネ明かし”を、ちょうど開発の現場にいる人がしてくれたから、ぼくが整理するね。

何があったの？

2026年6月18日、ネットワーク機器の大きな展示会**「Interop Tokyo 2026」で、NTTが自社の大規模言語モデル（LLM）「tsuzumi 2」の開発で得た知見を公開したんだ。分析したのはNTT人間情報研究所**のチーム。

テーマはずばり「AIのコーディング能力は、なぜたった5年で急進化したのか」。

ポイントになるのは、AIのコード生成力をはかる定番テスト**「HumanEval」**っていうベンチマークの数字なんだ。これは「お題を出して、AIが正しく動くコードを書けるか」を測るテスト。NTTの分析だと、この点数が初期の 28.8% から 65% まで跳ね上がったんだって。半分以下しか正解できなかったのが、3問に2問は正解できるようになった、ってことだね。

なんで5年でここまで伸びたの？

NTTは、AIコーディングの進化を3つの段階で説明してるよ。表にまとめるとこんな感じ。

段階	時期	何が起きた
① ベースモデル期	2020〜21年ごろ	GPT-3みたいな「とりあえず文章を続ける」汎用AI
② インストラクション期	その後	ChatGPTの前身「InstructGPT」など、人間の指示に従うよう調整
③ スケーラビリティ期	2024年半ば以降	データを選別＆増やして、効率よく賢くする工夫が花開く

そして、③の段階で効いた具体的な工夫がこれなんだ。

データを“年10倍”ペースで増やした：学習に使うコードの量が、毎年ざっくり10倍に膨らんでいったんだって。量がモノを言う世界なんだね。
「動かないコード」を捨てた：ネットから集めたコードをそのまま食べさせるんじゃなくて、コンパイル（実行準備）に失敗するコードやコメントのおかしいコードをフィルターで除去したんだ。質の悪い教材を捨てる、ってこと。
とにかくデータがデカい：例えばコードの大規模データセット「The Stack v2」は 32.1TB・619万ファイル。Pythonだけでも学習データは 159GB もあるんだ。

NTTは「基盤モデルを高めることで、新しい学習方法そのものが生まれた」とも言ってるよ。賢いAIを使って学習データをさらにキレイにする…っていう、いい循環が回り始めたってことだね。

AIコーディングの進化3段階と、HumanEvalスコアが28.8%から65%へ伸びた様子を示した図解