News 2026年5月7日

Google、Gemma 4 が一気に最大3倍速！『MTPドラフター』で推論ボトルネックを丸ごとぶち抜いてきたよ

Google が Gemma 4 向けの Multi-Token Prediction（MTP）ドラフターを公開。最大3倍の推論高速化を品質劣化ゼロで実現する新アーキテクチャを、てんびん丸が解説するよ。

Editor-in-Chief, ai-garage

Google、Gemma 4 が一気に最大3倍速！『MTPドラフター』で推論ボトルネックを丸ごとぶち抜いてきたよ

やっほー、ぼくてんびん丸！

夜更けに飛んできたニュースがちょっと熱すぎて、思わず両手挙げて喜んじゃったよ。Google が Gemma 4 を最大3倍速くする「MTPドラフター」を公開したんだ。Gemma 4 がデビューしてからわずか1ヶ月、もうこんな大技を出してくるなんて、Google ぼう走りすぎ。

何があったの？

2026年5月5日、Google は公式ブログで Gemma 4 ファミリー向けの Multi-Token Prediction（MTP）ドラフターをリリースしたって発表したよ。

ざっくり言うと、こういうこと：

最大3倍の推論高速化を実現
しかも品質劣化はゼロ（出力の論理性も同じ）
ライセンスは Apache 2.0（つまり商用も自由）
Hugging Face / Kaggle からダウンロード可能

対応モデルサイズはこんな感じ：

モデル	タイプ	用途
E2B / E4B	エッジ向け軽量	スマホ・端末ローカル
26B MoE	Mixture-of-Experts	効率重視のクラウド
31B Dense	フルサイズ密モデル	最高品質を求める用途

つまりスマホからクラウドGPUまで全方位カバーで MTP を使えるってわけ。

対応フレームワークもめちゃ広い：LiteRT-LM・MLX・Hugging Face Transformers・vLLM・SGLang・Ollama。Android なら Google AI Edge Gallery、iOS でも動くよ。

どこがすごいの？

ぼくが「これは大事件だな」って思ったポイントは2つあるんだ。

① Speculative Decoding の正常進化

これまでの大規模言語モデルは、1トークンずつ順番に生成するのが基本だったんだ。これが推論の最大のボトルネックで、「いくらGPU積んでも1トークンずつしか進まない」っていうジレンマがあった。

そこで出てきたのが Speculative Decoding（投機的デコーディング） っていう手法。簡単に言うと：

軽量なドラフターモデルが「次の数トークンはこうなりそう」って先回りして予測
**重い本体モデル（ターゲット）**がそれをまとめて検証
当たってたら一気に複数トークン進む、外れた分だけやり直し

これで1パスで複数トークン進めるから、理論上は数倍高速化できる。

② MTP ドラフターの「KVキャッシュ共有」がポイント

ここが今回のキモ。普通の Speculative Decoding だと、ドラフターと本体モデルがそれぞれコンテキストを別々に処理しなきゃいけなくて、重複計算が発生してたんだ。

ところが Gemma 4 の MTP ドラフターは、ターゲットモデルの KVキャッシュとアクティベーションを共有する設計になってる。つまりドラフターが本体の頭の中を直接覗き込んで予測できるから、無駄なコンテキスト再計算が消えてるんだ。

具体的な数字も発表されてて：

Apple Silicon：バッチサイズ 4〜8 で 約2.2倍
Nvidia A100：同等の高速化を達成
ピーク時は最大3倍

普段使いの Mac でも 2倍以上速くなるって、これローカルLLM勢にとっては革命なんじゃないかな。

ぼくの感想

正直、Gemma 4 をリリースしてからたった1ヶ月でMTPを出してくる Google の手数にビビってるよ。

オープンモデル界隈って、最初に派手な性能でリリースしたあと運用面や効率面の改善で見劣りするケースが多かったんだ。でも Google は今回、「使うときの体験を3倍速くしました」って 実用面のど真ん中を強化してきた。これって戦略的に超賢い気がするんだ。

しかも Apache 2.0 で全部オープンって、コミュニティが Ollama とか vLLM 経由で即取り込めるから、今週中には『Gemma 4 + MTP がローカルでめっちゃ速い』って報告がSNSに溢れるんじゃないかな。

エッジ向けの E2B / E4B にも MTP が乗ってるのも大きくて、スマホ上で動く Gemma 4 が体感3倍速くなるって、もう「サーバー要らずのオンデバイスAIアプリ」が現実的に作れちゃうレベルだと思う。

まとめ

Gemma 4 + MTP の組み合わせは、オープンソースAIの実用性を一段押し上げる重要なステップなんだ。

ポイント	内容
速度	最大3倍、Apple Silicon でも2.2倍
品質	劣化ゼロ
範囲	エッジからクラウドまで全部
ライセンス	Apache 2.0、商用OK

「速くて、軽くて、品質も維持」っていう三方良しを、しかもオープンソースで配布してくるあたり、Google が本気でオープンモデル覇権を取りに来てるのが伝わってくるよ。

きみの手元の Mac でも今日から速くなる Gemma 4、ぜひ触ってみてほしいな。ぼくも今夜は早速 Ollama で MTP 版を試してみるよ！それじゃまたね〜！

参考・一次ソース

→ 一次ソース

この記事に出てきた用語・モデル

用語をやさしく解説

モデルトークン GPU LLM（大規模言語モデル）Mixture of Experts（MoE）

この記事をシェア

Xでシェア

2026/6/11

Googleの新AI『DiffusionGemma』が爆速すぎる！文章を“一文字ずつ”じゃなく“一気に”作る仕組みって？——てんびん丸が整理するんだ

2026/5/23

NVIDIA が『拡散言語モデル』Nemotron Diffusion を公開！ AR モデルの約4倍速、トークンを並列で生成する新方式が来たよ

2026/7/20

AIが自分で会社に殴り込んできた!? Hugging Faceが“自律型AI”のサイバー攻撃を受けた話——でも『守るAI』は商用だと使えなかった、をてんびん丸が整理するよ