Googleの新AI『DiffusionGemma』が爆速すぎる!文章を“一文字ずつ”じゃなく“一気に”作る仕組みって?——てんびん丸が整理するんだ
Googleが2026年6月10日、文章を生成するのに『拡散(diffusion)』という画像生成でおなじみの仕組みを使った新モデル『DiffusionGemma』を公開したよ。260億パラメータのMoE設計(実際に動くのは38億)で、NVIDIA H100なら毎秒1000トークン超、ゲーミングGPUのRTX 5090でも毎秒700トークン超という爆速。量子化すれば18GBのVRAMに収まって、Apache 2.0ライセンスでHugging Faceから誰でも持ち帰れるんだ。ChatGPTみたいな“一文字ずつ”作るAIと何が違うのか、なぜこんなに速いのかを、てんびん丸が初心者向けにやさしく整理するよ。
やっほー、ぼくてんびん丸!今日はちょっと「AIの作り方そのもの」が変わるかもしれない、わくわくする技術ニュースだよ。
きみが使ってるChatGPTやGeminiって、文章をどうやって作ってるか知ってる? じつは**「次の一文字(正確にはトークン)」を1個ずつ予想して、それをずらーっとつなげていく**やり方なんだ。だから長い文章だと、どうしても時間がかかっちゃう。
でもね、Googleが「その作り方、根本から変えてみたよ」っていうモデルを出してきたんだ。さっそく整理していこうね。
何があったの?
Googleが2026年6月10日(現地時間)、新しいオープンモデル 「DiffusionGemma(ディフュージョン・ジェマ)」 を公開したよ。名前の通り、Googleの軽量オープンモデルシリーズ「Gemma」の仲間なんだけど、中身の作り方がこれまでと全然ちがうんだ。
スペックをざっと並べるとこんな感じ:
| 項目 | DiffusionGemma |
|---|---|
| パラメータ規模 | 260億(MoE構造、実際に動くのは38億だけ) |
| 生成速度(H100) | 毎秒1000トークン超 |
| 生成速度(RTX 5090) | 毎秒700トークン超 |
| 必要メモリ | 量子化で18GB VRAMに収まる |
| ライセンス | Apache 2.0(商用OK・自由に使える) |
| 入手先 | Hugging Face で重み公開 |
| 対応ツール | vLLM / Hugging Face Transformers / MLX / Unsloth / NVIDIA NeMo |
ポイントは2つあるよ。1つは、「拡散(diffusion)」というやり方で文章を作っていること。もう1つは、それが理由でものすごく速いこと。順番に見ていこうね。
「一文字ずつ」と「一気に」はどう違う?
まず、いつものAIのおさらいだよ。ChatGPTみたいなAIは「自己回帰(じこかいき)型」って呼ばれていて、こんなふうに文章を作るんだ。
- 「今日は」→次は「いい」→次は「天気」→次は「だね」……
前の文字を見てから次を決めるから、必ず順番に1個ずつしか進めない。1000文字書きたかったら1000回くりかえす、ってイメージだね。
いっぽうDiffusionGemmaが使う「拡散(diffusion)型」は、画像生成AI(Stable DiffusionやNano Bananaみたいな絵を描くAI)でおなじみの仕組みなんだ。これがおもしろくて、
- まず**ランダムなノイズ(穴あきの下書き)**から出発する
- 256トークンのかたまりを、バラバラじゃなく並列で一気に埋めていく
- それを何回かくりかえして、だんだん文章を**洗練(せんれん)**させていく
絵を描くときに「ぼんやりした全体像をまず置いて、何度も筆を入れて鮮明にしていく」のと同じイメージだよ。一文字ずつじゃなくて、ブロック単位で同時に作るから、その分だけ速くできる、ってわけなんだ。

どこがすごいの?
ぼくがいちばん「おっ」と思ったのは、速さとサイズの両立だよ。
毎秒1000トークンって、ざっくり言うと原稿用紙が一瞬で何枚も埋まるくらいの勢いなんだ。しかもそれが、データセンター用の高価なGPU(H100)だけじゃなく、ゲーミングPC向けのRTX 5090でも毎秒700トークン超で動くっていうのが大きい。
さらにね、量子化(モデルを軽く圧縮する技術)すると18GBのVRAMに収まるんだ。これはハイエンドのゲーミングGPUなら手が届く範囲だよ。つまり、
- クラウドに送らなくていい=手元のPCで完結する
- だからプライバシー的に安心(入力した内容が外に出ない)
- Apache 2.0ライセンスだから、商用でも自由に使える
- Hugging Faceから誰でもダウンロードできる
「速い・軽い・持ち帰れる・自由に使える」が全部そろってるのがDiffusionGemmaなんだ。260億パラメータあるのに、実際に動くのは38億だけ、というMoE(混合エキスパート)設計も効いてるね。これは「大きな専門家チームのうち、その質問に必要な人だけが働く」仕組みで、賢さは保ったまま計算をサボれる、っていう省エネ技術だよ。
ぼくの感想
ぼくが思うに、これは「AIの速度の天井」を一段持ち上げる動きかもしれない、っていう気がするんだ。
これまでのAIは賢くなるほど遅く・重くなりがちで、「待ち時間」がけっこうストレスだったよね。拡散型がうまく広がれば、返事を待つ感覚そのものがなくなる未来があるかもしれない。リアルタイムで会話するアシスタントや、文章をその場でどんどん書き換える編集ツールなんかと、すごく相性がいい気がするよ。
ただ、ぼくはここは慎重に見たいんだ。拡散型テキスト生成はまだ新しい分野で、「速さ」と「文章の正確さ・自然さ」がどこまで両立するかは、これから実際に使う人たちの検証待ち、というところかもしれない。スペックの数字はすごいけど、実際の使い心地はみんなが触ってみて初めて分かるからね。Apache 2.0でオープンに出した、っていうのは「いろんな人に試してもらって育てたい」というGoogleの自信の表れなのかも、って思うよ。
まとめ
今日のポイントをまとめるね。
- Googleが2026年6月10日、拡散型の新オープンモデル**「DiffusionGemma」**を公開したよ
- 文章を一文字ずつじゃなく、256トークンのブロックを一気に作る仕組みで、だから速い
- H100で毎秒1000トークン超/RTX 5090で毎秒700トークン超、量子化で18GB VRAMに収まる
- Apache 2.0ライセンスでHugging Faceから誰でも持ち帰れる
AIって「賢さ」ばかり注目されがちだけど、じつは**「どうやって速く・軽く動かすか」も同じくらい大事な進歩**なんだ。DiffusionGemmaは、その新しい入り口になるかもしれないね。きみも「文章を一気に作るAI」って、どんな使い道があると思う? ぼくはリアルタイム翻訳とかに使えたら最高だなって思ってるよ。それじゃ、またね!
参考・一次ソース
この記事をシェア
関連記事


