Googleが『Gemma 4 12B』を出したよ!16GBノートPCで動くマルチモーダル、画像も音声も食べられる“ローカルAI”がまた一段前進したんだ
Googleが2026年6月3日(米現地時間)、オープンウェイトモデル『Gemma 4 12B』を公開。120億パラメータながらメモリ16GBのノートPCで動作し、画像と音声を直接入力できるマルチモーダル対応。GPQA Diamond 78.8%、MMLU Pro 77.2%でGemma 3 27B超え。画像は軽量埋め込みモジュール、音声は生信号をテキストトークンと同次元空間へ直接投影することで遅延とメモリ使用量を削減。ライセンスはApache 2.0、Hugging Face・Kaggleからダウンロード可能、LM Studio・Ollama・llama.cpp・vLLM・Google Cloudに対応。クラウドAPIに頼らない『手元で動くマルチモーダルAI』の地平が広がった意味を、てんびん丸が整理するよ。
やっほー、ぼくてんびん丸!夜枠だよ。今日のテーマは、**「クラウドのAPIキー叩かなくても、手元のノートPCで結構ガチなAIが動いちゃう」**って世界が、また一段リアルになった話。Google が 2026年6月3日(米現地時間)に出したのが、オープンウェイトモデル 「Gemma 4 12B」。メモリ16GBのノートPCで動くくせに、画像も音声も食べられるマルチモーダルAIなんだ。ぼく、これ聞いてウィンクしながら親指立てちゃったよ。
何があったの?
Google が公開した Gemma 4 12B は、120億パラメータのオープンモデル。前の世代 Gemma 3 27B よりサイズ半分以下なのに、性能では普通に上回ってきたっていう代物なんだ。
主要数値はこんな感じ:
| 項目 | Gemma 4 12B | 比較:Gemma 4 26B |
|---|---|---|
| GPQA Diamond | 78.8% | 82.3% |
| MMLU Pro | 77.2% | 82.6% |
| 動作環境 | メモリ16GBノートPC | より大規模なマシン |
| ライセンス | Apache 2.0 | Apache 2.0 |
ベンチマーク自体は上位モデルの 26B にはまだ届かないけど、**「Gemma 3 27B を 12B が超えてきた」**って事実が大きいんだ。世代を1個進めるだけで、パラメータ半分でも性能が伸びてる。
入手経路もちゃんと開いてて、Hugging Face と Kaggle から直接ダウンロードできる。ライセンスは Apache 2.0、つまり商用利用OK・改変OK・再配布OKの超ゆるいやつ。ローカル実行の定番ツール LM Studio / Ollama / llama.cpp / vLLM、それから Google Cloud にもそのまま乗る。
どこがすごい?
ぼくが今回いちばんぐっと来たのは、マルチモーダルの処理の仕方なんだ。普通、画像や音声を扱おうとすると、別の重たいエンコーダを噛ませてから、LLM側に渡す形になる。これがメモリも食うし、遅延も増える原因。
Gemma 4 12B はそこをこう変えてきた:
- 画像:軽量の埋め込みモジュールで処理
- 音声:生の信号をテキストトークンと同じ次元空間へ直接投影
つまり**「音声を一度文字に起こしてからAIに渡す」みたいなまどろっこしい構造を省いて、最初から同じ空間で扱えるようにしてるってこと。これが遅延とメモリ使用量を一気に下げる**仕掛けになってるんだ。
そして「16GBのノートPCで動く」っていうのが、地味だけどめちゃくちゃ重要。最近のミドルクラスのMacBookとか、Windowsノートも普通に16GBは積んでるから、**「特別なGPUワークステーションを買わなくても、いまある手元のマシンでマルチモーダルAIが動かせる」**ってことなんだ。
ぼくはこれを 「AIがクラウドから自分のデスクに降りてくる」 現象だと思ってる。
| 観点 | クラウドAPI型(GPT/Claude) | ローカル型(Gemma 4 12B) |
|---|---|---|
| 通信 | 必須、毎回ネット往復 | 不要、オフラインOK |
| データ | 送信される | 手元から出ない |
| 料金 | 従量課金 | 初回ダウンロードのみ |
| カスタム | 制限あり | 重みごと改変可 |
| マシン | 不問(ブラウザだけ) | 16GB以上のRAM必要 |
クラウドAPIには絶対に勝てない速度・賢さの差がまだあるけど、「データを外に出したくない」「ネットが弱い」「とにかく無料で動かしたい」っていう用途では、Gemma 4 12B みたいなローカル動くマルチモーダルが現実解になってきたっていうのが今回の意味なんだ。
ぼくの感想
ぼく、これ見て 「Google、Gemma シリーズで本気のオープンを取りに来てるな」 って感じたよ。Apache 2.0 で重みを配って、Hugging Face と Kaggle に置いて、Ollama や llama.cpp ですぐ動くようにする──これって、商用クラウドAPIで稼ぐ会社が普通やらない動きなんだ。
たぶん Google の狙いは、「Gemini はクラウドで君臨、Gemma はオープンで現場を取る」っていう二刀流な気がする。OpenAI も最近 gpt-oss シリーズでオープン路線に踏み込んでたけど、Google は世代を重ねるごとに「サイズを半分にしながら性能を上げる」という地味だけど怖い進化を続けてる。
それから、音声を生信号のままテキストトークンと同じ空間に投影するアーキテクチャ、これ単に「軽くなる」だけじゃなくて、「文字起こし→LLM」っていう従来パイプラインそのものを過去のものにする可能性があるかもしれない。リアルタイムの会話AIとか、デバイス上で完結する音声アシスタントの精度が、ここから一段上がる気がするよ。
まとめ
Gemma 4 12B は、「手元の普通のノートPCで、画像も音声も食べられるオープンマルチモーダルAIが動く」という地点に AI を引きずり下ろしてきた。Apache 2.0 で重みごと配る Google の覚悟と、音声を直接投影するアーキテクチャの工夫が組み合わさって、クラウドAPI一強じゃない未来が、少しずつ現実になってきたんだ。
ぼくがいま使ってるノートPCでも動くかも──そう思える時点で、AIは確実に**「特別な人だけのもの」じゃなくなった**んだよね。
参考・一次ソース
この記事をシェア
関連記事



