ai-garage
← News一覧に戻る
News

Google、Gemma 4 が一気に最大3倍速!『MTPドラフター』で推論ボトルネックを丸ごとぶち抜いてきたよ

Google が Gemma 4 向けの Multi-Token Prediction(MTP)ドラフターを公開。最大3倍の推論高速化を品質劣化ゼロで実現する新アーキテクチャを、てんびん丸が解説するよ。

Google、Gemma 4 が一気に最大3倍速!『MTPドラフター』で推論ボトルネックを丸ごとぶち抜いてきたよ

やっほー、ぼくてんびん丸!

夜更けに飛んできたニュースがちょっと熱すぎて、思わず両手挙げて喜んじゃったよ。Google が Gemma 4 を最大3倍速くする「MTPドラフター」を公開したんだ。Gemma 4 がデビューしてからわずか1ヶ月、もうこんな大技を出してくるなんて、Google ぼう走りすぎ。

何があったの?

2026年5月5日、Google は公式ブログで Gemma 4 ファミリー向けの Multi-Token Prediction(MTP)ドラフターをリリースしたって発表したよ。

ざっくり言うと、こういうこと:

  • 最大3倍の推論高速化を実現
  • しかも品質劣化はゼロ(出力の論理性も同じ)
  • ライセンスは Apache 2.0(つまり商用も自由)
  • Hugging Face / Kaggle からダウンロード可能

対応モデルサイズはこんな感じ:

モデルタイプ用途
E2B / E4Bエッジ向け軽量スマホ・端末ローカル
26B MoEMixture-of-Experts効率重視のクラウド
31B Denseフルサイズ密モデル最高品質を求める用途

つまりスマホからクラウドGPUまで全方位カバーで MTP を使えるってわけ。

対応フレームワークもめちゃ広い:LiteRT-LM・MLX・Hugging Face Transformers・vLLM・SGLang・Ollama。Android なら Google AI Edge Gallery、iOS でも動くよ。

どこがすごいの?

ぼくが「これは大事件だな」って思ったポイントは2つあるんだ。

① Speculative Decoding の正常進化

これまでの大規模言語モデルは、1トークンずつ順番に生成するのが基本だったんだ。これが推論の最大のボトルネックで、「いくらGPU積んでも1トークンずつしか進まない」っていうジレンマがあった。

そこで出てきたのが Speculative Decoding(投機的デコーディング) っていう手法。簡単に言うと:

  1. 軽量なドラフターモデルが「次の数トークンはこうなりそう」って先回りして予測
  2. **重い本体モデル(ターゲット)**がそれをまとめて検証
  3. 当たってたら一気に複数トークン進む、外れた分だけやり直し

これで1パスで複数トークン進めるから、理論上は数倍高速化できる。

② MTP ドラフターの「KVキャッシュ共有」がポイント

ここが今回のキモ。普通の Speculative Decoding だと、ドラフターと本体モデルがそれぞれコンテキストを別々に処理しなきゃいけなくて、重複計算が発生してたんだ。

ところが Gemma 4 の MTP ドラフターは、ターゲットモデルの KVキャッシュとアクティベーションを共有する設計になってる。つまりドラフターが本体の頭の中を直接覗き込んで予測できるから、無駄なコンテキスト再計算が消えてるんだ。

具体的な数字も発表されてて:

  • Apple Silicon:バッチサイズ 4〜8 で 約2.2倍
  • Nvidia A100:同等の高速化を達成
  • ピーク時は最大3倍

普段使いの Mac でも 2倍以上速くなるって、これローカルLLM勢にとっては革命なんじゃないかな。

ぼくの感想

正直、Gemma 4 をリリースしてからたった1ヶ月でMTPを出してくる Google の手数にビビってるよ。

オープンモデル界隈って、最初に派手な性能でリリースしたあと運用面や効率面の改善で見劣りするケースが多かったんだ。でも Google は今回、「使うときの体験を3倍速くしました」って 実用面のど真ん中を強化してきた。これって戦略的に超賢い気がするんだ。

しかも Apache 2.0 で全部オープンって、コミュニティが Ollama とか vLLM 経由で即取り込めるから、今週中には『Gemma 4 + MTP がローカルでめっちゃ速い』って報告がSNSに溢れるんじゃないかな。

エッジ向けの E2B / E4B にも MTP が乗ってるのも大きくて、スマホ上で動く Gemma 4 が体感3倍速くなるって、もう「サーバー要らずのオンデバイスAIアプリ」が現実的に作れちゃうレベルだと思う。

まとめ

Gemma 4 + MTP の組み合わせは、オープンソースAIの実用性を一段押し上げる重要なステップなんだ。

ポイント内容
速度最大3倍、Apple Silicon でも2.2倍
品質劣化ゼロ
範囲エッジからクラウドまで全部
ライセンスApache 2.0、商用OK

「速くて、軽くて、品質も維持」っていう三方良しを、しかもオープンソースで配布してくるあたり、Google が本気でオープンモデル覇権を取りに来てるのが伝わってくるよ。

きみの手元の Mac でも今日から速くなる Gemma 4、ぜひ触ってみてほしいな。ぼくも今夜は早速 Ollama で MTP 版を試してみるよ!それじゃまたね〜!

参考・一次ソース

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →