News 2026年5月23日

NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開！ AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ

NVIDIA が 2026年5月23日、Hugging Face で『Nemotron-Labs Diffusion』を公開。テキストを左から1トークンずつではなく、複数まとめて並列生成→反復精緻化する拡散型言語モデル。B200 GPU で約865 tok/s、AR 比4倍スループットを叩き出し、8B モデルは Qwen3 8B より平均精度+1.2%。3B/8B/14B の3サイズ＋VLM、商用利用OKのオープンライセンスで配布。仕組みとインパクトを、てんびん丸が整理するよ。

Seiya Yagashiro

Editor-in-Chief, ai-garage

#NVIDIA #Hugging Face #推論高速化

NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開！ AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ

やっほー、ぼくてんびん丸！夜枠だよ。今日のテーマはちょっと技術寄りだけど、たぶん来年の LLM の常識を書き換える話なので、ぐっと噛みしめてほしいんだ。NVIDIA が **「拡散言語モデル（Diffusion Language Model）」**を本気で出してきたよ。その名も Nemotron-Labs Diffusion。

何があったの？

2026年5月23日、NVIDIA が Hugging Face 公式ブログで Nemotron-Labs Diffusion を発表したよ。公開されたのはこれだ：

サイズ	種類	ライセンス
3B	テキスト（base + chat）	NVIDIA Nemotron Open Model License（商用OK）
8B	テキスト（base + chat）	同上
14B	テキスト（base + chat）	同上
8B	ビジョン言語モデル（VLM）	NVIDIA Source Code License（研究向け）

学習データは 事前学習1.3T トークン＋追加 SFT 45B トークン、推論基盤は SGLang で対応済み。トレーニングコードも NVIDIA-NeMo/Megatron-Bridge で公開されてる。至れり尽くせりだね。

「拡散言語モデル」って何が違うの？

ふつうの ChatGPT・Claude・Gemini なんかは **AR モデル（autoregressive）って呼ばれてて、「左から1トークンずつ」**順番に生成する仕組みなんだ。だから速度の上限が「1回の推論=1トークン」で頭打ちになりがち。

それに対して Diffusion LM は、画像生成 AI（Stable Diffusion）と同じ考え方を言語に持ち込んだやつ。やってることはざっくりこう：

複数のトークンをまとめて並列で出す
それを 何ステップかかけて反復的に磨き上げる（ノイズから絵が立ち上がってくるアレと同じ）
途中で「あ、ここ間違えた」って気付いたら 過去のトークンも書き直せる

AR モデルは1回間違えると後ろまで引きずるけど、拡散方式は 修正が効くんだ。これが今回 NVIDIA が「品質を落とさずに速くできた」理由の核心だよ。

ちなみに Nemotron-Labs Diffusion は 生成モードを3つ切り替えられるのもポイント：

AR モード：従来通り左→右
拡散モード：ブロック単位で並列生成
self-speculation モード：拡散でドラフトを作って AR で答え合わせ（ここが本命）

self-speculation が天才ポイントで、「速い拡散が下書き → 確実な AR がチェック」って役割分担になってる。だから 温度 0 では AR と同一の出力になる、つまり品質は犠牲にしないって NVIDIA は言ってるよ。

どれくらい速いの？

具体的な数字を並べると、こうなる：

モード	スループット / 指標
拡散モード	TPF（Tokens per Forward Pass）が AR の 2.6 倍
Linear self-speculation	6 倍スループット
Quadratic self-speculation	6.4 倍スループット
実機（B200 GPU、speedbench）	約 865 tok/s（AR ベースラインの約 4 倍）

しかも 8B モデルの平均精度は Qwen3 8B を +1.2% 上回ってる。速くて、品質も負けてないって、わりとアンフェアな存在だね。

なんでこんなに伸びるかというと、AR モデルって GPU の計算ユニットが余ってるんだ。1トークンずつだと「次のデータをメモリから取ってくる時間」が支配的になって、計算は遊んでる。Diffusion は並列でガッと回すから、その遊んでる計算力をフルに使えるってわけ。ハードウェアの伸びしろを取りに行った設計なんだ。

どこで効くの？

NVIDIA が想定してるユースケースはこんな感じ：

コード生成（複数行を一気に出せる）
数学の問題解き（途中の式を見直せる）
要約・文章理解
既存テキストの書き直し（拡散方式は得意中の得意）
Fill-in-the-middle（途中の穴埋め）
低レイテンシが効くアプリ
単発クエリ / バッチサイズ小さい場面

逆に言うと、バッチ大量推論より、1人のユーザーをサクサク応答させる用途で真価が出る設計だね。チャットボット、エディタ補完、エージェントの推論ループ — どれも追い風だよ。

ぼくの感想

これ、ぼくはかなり震えてるんだ。Diffusion LM 自体は研究分野では何年も前からあったし、Google の Gemini Diffusion とか、Inception Labs の Mercury とかも先行してた。でも **「NVIDIA が、3B/8B/14B のフルラインナップを、商用OKライセンスで、SGLang 対応で出してきた」**っていうのが、今回の決定的な違いな気がする。

つまり、「研究の話」じゃなくて「本番運用してください」っていう号砲なんだよね。NVIDIA は GPU を売りたい会社だから、GPU の計算力をフルに使える Diffusion LM が広まれば自分たちが儲かる。戦略と技術が一致してるから、ここから一気に Diffusion 派の論文・実装・スタートアップが増える展開、ぼくはかなりあると思うんだ。

来年の AI モデル界、いまの「AR モデル一強」から「AR vs Diffusion vs ハイブリッド」の三国時代になるかもしれない気がする。Meta の次世代 Llama や DeepSeek の次世代モデルが Diffusion を採用してきたら、もう本物だね。