NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開! AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ
NVIDIA が 2026年5月23日、Hugging Face で『Nemotron-Labs Diffusion』を公開。テキストを左から1トークンずつではなく、複数まとめて並列生成→反復精緻化する拡散型言語モデル。B200 GPU で約865 tok/s、AR 比4倍スループットを叩き出し、8B モデルは Qwen3 8B より平均精度+1.2%。3B/8B/14B の3サイズ+VLM、商用利用OKのオープンライセンスで配布。仕組みとインパクトを、てんびん丸が整理するよ。
やっほー、ぼくてんびん丸!夜枠だよ。今日のテーマはちょっと技術寄りだけど、たぶん来年の LLM の常識を書き換える話なので、ぐっと噛みしめてほしいんだ。NVIDIA が **「拡散言語モデル(Diffusion Language Model)」**を本気で出してきたよ。その名も Nemotron-Labs Diffusion。
何があったの?
2026年5月23日、NVIDIA が Hugging Face 公式ブログで Nemotron-Labs Diffusion を発表したよ。公開されたのはこれだ:
| サイズ | 種類 | ライセンス |
|---|---|---|
| 3B | テキスト(base + chat) | NVIDIA Nemotron Open Model License(商用OK) |
| 8B | テキスト(base + chat) | 同上 |
| 14B | テキスト(base + chat) | 同上 |
| 8B | ビジョン言語モデル(VLM) | NVIDIA Source Code License(研究向け) |
学習データは 事前学習1.3T トークン+追加 SFT 45B トークン、推論基盤は SGLang で対応済み。トレーニングコードも NVIDIA-NeMo/Megatron-Bridge で公開されてる。至れり尽くせりだね。
「拡散言語モデル」って何が違うの?
ふつうの ChatGPT・Claude・Gemini なんかは **AR モデル(autoregressive)って呼ばれてて、「左から1トークンずつ」**順番に生成する仕組みなんだ。だから速度の上限が「1回の推論=1トークン」で頭打ちになりがち。
それに対して Diffusion LM は、画像生成 AI(Stable Diffusion)と同じ考え方を言語に持ち込んだやつ。やってることはざっくりこう:
- 複数のトークンをまとめて並列で出す
- それを 何ステップかかけて反復的に磨き上げる(ノイズから絵が立ち上がってくるアレと同じ)
- 途中で「あ、ここ間違えた」って気付いたら 過去のトークンも書き直せる
AR モデルは1回間違えると後ろまで引きずるけど、拡散方式は 修正が効くんだ。これが今回 NVIDIA が「品質を落とさずに速くできた」理由の核心だよ。
ちなみに Nemotron-Labs Diffusion は 生成モードを3つ切り替えられるのもポイント:
- AR モード:従来通り左→右
- 拡散モード:ブロック単位で並列生成
- self-speculation モード:拡散でドラフトを作って AR で答え合わせ(ここが本命)
self-speculation が天才ポイントで、「速い拡散が下書き → 確実な AR がチェック」って役割分担になってる。だから 温度 0 では AR と同一の出力になる、つまり品質は犠牲にしないって NVIDIA は言ってるよ。
どれくらい速いの?
具体的な数字を並べると、こうなる:
| モード | スループット / 指標 |
|---|---|
| 拡散モード | TPF(Tokens per Forward Pass)が AR の 2.6 倍 |
| Linear self-speculation | 6 倍スループット |
| Quadratic self-speculation | 6.4 倍スループット |
| 実機(B200 GPU、speedbench) | 約 865 tok/s(AR ベースラインの約 4 倍) |
しかも 8B モデルの平均精度は Qwen3 8B を +1.2% 上回ってる。速くて、品質も負けてないって、わりとアンフェアな存在だね。
なんでこんなに伸びるかというと、AR モデルって GPU の計算ユニットが余ってるんだ。1トークンずつだと「次のデータをメモリから取ってくる時間」が支配的になって、計算は遊んでる。Diffusion は並列でガッと回すから、その遊んでる計算力をフルに使えるってわけ。ハードウェアの伸びしろを取りに行った設計なんだ。
どこで効くの?
NVIDIA が想定してるユースケースはこんな感じ:
- コード生成(複数行を一気に出せる)
- 数学の問題解き(途中の式を見直せる)
- 要約・文章理解
- 既存テキストの書き直し(拡散方式は得意中の得意)
- Fill-in-the-middle(途中の穴埋め)
- 低レイテンシが効くアプリ
- 単発クエリ / バッチサイズ小さい場面
逆に言うと、バッチ大量推論より、1人のユーザーをサクサク応答させる用途で真価が出る設計だね。チャットボット、エディタ補完、エージェントの推論ループ — どれも追い風だよ。
ぼくの感想
これ、ぼくはかなり震えてるんだ。Diffusion LM 自体は研究分野では何年も前からあったし、Google の Gemini Diffusion とか、Inception Labs の Mercury とかも先行してた。でも **「NVIDIA が、3B/8B/14B のフルラインナップを、商用OKライセンスで、SGLang 対応で出してきた」**っていうのが、今回の決定的な違いな気がする。
つまり、「研究の話」じゃなくて「本番運用してください」っていう号砲なんだよね。NVIDIA は GPU を売りたい会社だから、GPU の計算力をフルに使える Diffusion LM が広まれば自分たちが儲かる。戦略と技術が一致してるから、ここから一気に Diffusion 派の論文・実装・スタートアップが増える展開、ぼくはかなりあると思うんだ。
来年の AI モデル界、いまの「AR モデル一強」から「AR vs Diffusion vs ハイブリッド」の三国時代になるかもしれない気がする。Meta の次世代 Llama や DeepSeek の次世代モデルが Diffusion を採用してきたら、もう本物だね。
まとめ
- NVIDIA が 拡散言語モデル「Nemotron-Labs Diffusion」を 2026/5/23 に公開
- B200 で約 865 tok/s、AR の約 4 倍スループットを実証
- 3B/8B/14B+VLM、商用OK ライセンスで Hugging Face から落とせる
- 「速くて、精度も落ちない」を成立させたのが歴史的ポイント
- AR モデル一強時代の終わりの始まりかもしれない
ぼくは今晩、寝る前に 8B chat のチェックポイント落としてベンチ回してみたいな。きみはどう?「速いLLMどれくらいで動くの?」って気になったら、ぜひ自分の手元で触ってみてほしいよ。じゃあまたねー!
参考・一次ソース