ai-garage
← News一覧に戻る
News

NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開! AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ

NVIDIA が 2026年5月23日、Hugging Face で『Nemotron-Labs Diffusion』を公開。テキストを左から1トークンずつではなく、複数まとめて並列生成→反復精緻化する拡散型言語モデル。B200 GPU で約865 tok/s、AR 比4倍スループットを叩き出し、8B モデルは Qwen3 8B より平均精度+1.2%。3B/8B/14B の3サイズ+VLM、商用利用OKのオープンライセンスで配布。仕組みとインパクトを、てんびん丸が整理するよ。

NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開! AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ

やっほー、ぼくてんびん丸!夜枠だよ。今日のテーマはちょっと技術寄りだけど、たぶん来年の LLM の常識を書き換える話なので、ぐっと噛みしめてほしいんだ。NVIDIA が **「拡散言語モデル(Diffusion Language Model)」**を本気で出してきたよ。その名も Nemotron-Labs Diffusion

何があったの?

2026年5月23日、NVIDIA が Hugging Face 公式ブログで Nemotron-Labs Diffusion を発表したよ。公開されたのはこれだ:

サイズ種類ライセンス
3Bテキスト(base + chat)NVIDIA Nemotron Open Model License(商用OK
8Bテキスト(base + chat)同上
14Bテキスト(base + chat)同上
8Bビジョン言語モデル(VLM)NVIDIA Source Code License(研究向け)

学習データは 事前学習1.3T トークン+追加 SFT 45B トークン、推論基盤は SGLang で対応済み。トレーニングコードも NVIDIA-NeMo/Megatron-Bridge で公開されてる。至れり尽くせりだね。

「拡散言語モデル」って何が違うの?

ふつうの ChatGPT・Claude・Gemini なんかは **AR モデル(autoregressive)って呼ばれてて、「左から1トークンずつ」**順番に生成する仕組みなんだ。だから速度の上限が「1回の推論=1トークン」で頭打ちになりがち。

それに対して Diffusion LM は、画像生成 AI(Stable Diffusion)と同じ考え方を言語に持ち込んだやつ。やってることはざっくりこう:

  1. 複数のトークンをまとめて並列で出す
  2. それを 何ステップかかけて反復的に磨き上げる(ノイズから絵が立ち上がってくるアレと同じ)
  3. 途中で「あ、ここ間違えた」って気付いたら 過去のトークンも書き直せる

AR モデルは1回間違えると後ろまで引きずるけど、拡散方式は 修正が効くんだ。これが今回 NVIDIA が「品質を落とさずに速くできた」理由の核心だよ。

ちなみに Nemotron-Labs Diffusion は 生成モードを3つ切り替えられるのもポイント:

  • AR モード:従来通り左→右
  • 拡散モード:ブロック単位で並列生成
  • self-speculation モード:拡散でドラフトを作って AR で答え合わせ(ここが本命

self-speculation が天才ポイントで、「速い拡散が下書き → 確実な AR がチェック」って役割分担になってる。だから 温度 0 では AR と同一の出力になる、つまり品質は犠牲にしないって NVIDIA は言ってるよ。

どれくらい速いの?

具体的な数字を並べると、こうなる:

モードスループット / 指標
拡散モードTPF(Tokens per Forward Pass)が AR の 2.6 倍
Linear self-speculation6 倍スループット
Quadratic self-speculation6.4 倍スループット
実機(B200 GPU、speedbench)約 865 tok/s(AR ベースラインの約 4 倍

しかも 8B モデルの平均精度は Qwen3 8B を +1.2% 上回ってる速くて、品質も負けてないって、わりとアンフェアな存在だね。

なんでこんなに伸びるかというと、AR モデルって GPU の計算ユニットが余ってるんだ。1トークンずつだと「次のデータをメモリから取ってくる時間」が支配的になって、計算は遊んでる。Diffusion は並列でガッと回すから、その遊んでる計算力をフルに使えるってわけ。ハードウェアの伸びしろを取りに行った設計なんだ。

どこで効くの?

NVIDIA が想定してるユースケースはこんな感じ:

  • コード生成(複数行を一気に出せる)
  • 数学の問題解き(途中の式を見直せる)
  • 要約・文章理解
  • 既存テキストの書き直し(拡散方式は得意中の得意)
  • Fill-in-the-middle(途中の穴埋め)
  • 低レイテンシが効くアプリ
  • 単発クエリ / バッチサイズ小さい場面

逆に言うと、バッチ大量推論より、1人のユーザーをサクサク応答させる用途で真価が出る設計だね。チャットボット、エディタ補完、エージェントの推論ループ — どれも追い風だよ。

ぼくの感想

これ、ぼくはかなり震えてるんだ。Diffusion LM 自体は研究分野では何年も前からあったし、Google の Gemini Diffusion とか、Inception Labs の Mercury とかも先行してた。でも **「NVIDIA が、3B/8B/14B のフルラインナップを、商用OKライセンスで、SGLang 対応で出してきた」**っていうのが、今回の決定的な違いな気がする。

つまり、「研究の話」じゃなくて「本番運用してください」っていう号砲なんだよね。NVIDIA は GPU を売りたい会社だから、GPU の計算力をフルに使える Diffusion LM が広まれば自分たちが儲かる。戦略と技術が一致してるから、ここから一気に Diffusion 派の論文・実装・スタートアップが増える展開、ぼくはかなりあると思うんだ。

来年の AI モデル界、いまの「AR モデル一強」から「AR vs Diffusion vs ハイブリッド」の三国時代になるかもしれない気がする。Meta の次世代 Llama や DeepSeek の次世代モデルが Diffusion を採用してきたら、もう本物だね。

まとめ

  • NVIDIA が 拡散言語モデル「Nemotron-Labs Diffusion」を 2026/5/23 に公開
  • B200 で約 865 tok/s、AR の約 4 倍スループットを実証
  • 3B/8B/14B+VLM、商用OK ライセンスで Hugging Face から落とせる
  • 速くて、精度も落ちない」を成立させたのが歴史的ポイント
  • AR モデル一強時代の終わりの始まりかもしれない

ぼくは今晩、寝る前に 8B chat のチェックポイント落としてベンチ回してみたいな。きみはどう?「速いLLMどれくらいで動くの?」って気になったら、ぜひ自分の手元で触ってみてほしいよ。じゃあまたねー!

参考・一次ソース

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →