「AI 担当」に任命された日のための、最低限の『分かったふり』ガイド
社内 AI 担当に任命された、でも正直そんなに詳しくない。経営層・現場・他部署からの質問にツッコまれずに『分かってる人』として振る舞うための、知っておくべき指標と話し方を ai-garage 編集部が整理。
「あの〜、AI のことに詳しいって聞いたんですが…ちょっと相談いいですか?」
ある朝、隣の部署の課長がそう話しかけてきた。
あなたは数ヶ月前、ふと社内で「AI 関係、誰がやる?」と話題になった時に、たまたま ChatGPT を業務で使っていたことをポロッと話してしまった。
それから半年。気がついたら、社内では 「AI 担当の人」 として認知されている。
経営層からは「他社は AI でいくら削減してる?」と聞かれ、現場からは「ChatGPT と Claude、どっちがいい?」と聞かれ、他部署からは「うちの業務で使えそうな AI ある?」と聞かれる。
…正直そこまで詳しくない。
でも今さら「いやそんな詳しくないんです」とは言えない。 専門家ほどじゃないけど、一般人よりちょっと詳しく語れる程度には、最低限の武装をしておきたい。
この記事は、そんな 「社内 AI 担当」のあなた のためのガイドです。
直面する 3 つの場面
社内 AI 担当として、おそらく繰り返し直面するのはこの 3 つ:
- 経営層への報告:「AI で何が変わってる?」「他社はどこまで進んでる?」
- 現場への説明:「業務で使いたい」「うちでも導入して」
- 他社比較・新モデル評価:「○○ という新モデルが出たけど、うちにとってどう?」
これら全部、「最低限の指標と語彙」を押さえれば、9 割は乗り切れる。
逆に言えば、「最低限の指標と語彙」を知らないと、永遠に毎回ググるか、AI に毎回聞くかの繰り返しで疲弊する。
これだけ覚えれば「分かってる人」感が出る、5 つの指標
専門家でなくとも、社内 AI 担当として知っておきたい指標はこの 5 つ。これだけで、9 割の会話を乗り切れます。
1. Intelligence Index(総合知能スコア)
Artificial Analysis が公開する、AI モデルの 「総合的な賢さ」を 0〜100 点 で表す指標。MMLU や GPQA など複数のベンチマークを加重平均したものです。
- 使い所: 「現状、賢いと言われてる AI モデルは?」「業界トップは?」
- 読み方: 70 以上で「実用レベル」、80 以上で「業界最先端」
- 2026年5月時点: GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro がトップ集団
会議で「Intelligence Index で見ると…」と一言挟むだけで、「この人ちゃんと業界指標見てる」感が出ます。
詳しくは → Intelligence Index 用語解説
2. Cost per MTok(百万トークン単価)
AI の料金単位。100万トークン(≒日本語50〜100万文字)あたりのドル料金 で、input(入力)と output(出力)で別計算。
- 使い所: 「うちで月いくらかかる?」の見積もり
- 読み方: 同性能でも 3〜30 倍の価格差があるので、用途と予算で選ぶ
- ざっくり感覚:
- 高級モデル(Claude Opus): input $15 / output $75
- バランス(GPT-5.5): input $5 / output $15
- 安価(Gemini Flash): input $1.5 / output $9
- 激安(DeepSeek): input $0.3 / output $1
「コスト感」を語れると、経営層からの信頼度が一気に上がります。
詳しくは → Cost per MTok 用語解説
3. コンテキストウィンドウ(Context Window)
AI が一度に 読み込める情報量の上限。トークン単位で表します。
- 使い所: 「長文を扱える?」「社内ドキュメント全部食わせられる?」
- 読み方: 100k = 短い本1冊分、1M(1,000,000)= 専門書5〜10冊分
- 2026年5月時点: Gemini Pro 系は 1M トークン、Claude Opus は 200k〜1M、GPT-5.5 は 400k
「うちの業務文書、AI に全部読ませたい」みたいな相談を受けたときに、「コンテキストウィンドウ的にこのモデルなら入りそう」 と返せると、頼れる担当として認知されます。
4. SWE-Bench Verified(実コード修正ベンチ)
実際の OSS プロジェクトのバグを AI が修正できるかを測る、コーディング能力のデファクト指標。
- 使い所: 「開発で AI 使うとどれくらい効く?」「Cursor 入れていい?」
- 読み方: 70% 超えは「実戦投入できる」、80% 超えは「ジュニアエンジニア相当」
- 2026年5月時点: GPT-5.5・Claude Opus 4.7 が 80% 超え
開発部門との会話で「SWE-Bench で 80% って、これジュニアエンジニア1人分くらいですよ」と説明できると、話が早くなります。
詳しくは → SWE-Bench 用語解説
5. TPS(Tokens Per Second、出力速度)
AI が 1 秒間に生成できる文字数の指標。チャット用なら 50 TPS で十分、エージェント用途では 150〜300 TPS が体感差になる。
- 使い所: 「動作が遅い」「リアルタイム応答できる?」
- 読み方: チャットで違和感ないのは 40 TPS〜、業務エージェントなら 150 TPS+
- 2026年5月時点: Gemini Flash 系・Groq 経由の Llama が高速、推論モデルは構造的に遅い
「もっさり感」の正体を数値で語れると、現場の不満を技術的に整理できます。
詳しくは → TPS 用語解説
「専門家にツッコまれない」最低限の表現
ここまでで「指標を知る」段階。次は 「どう話すか」 です。
専門家にツッコまれない、でも素人にも分かる、ちょうど良い表現の型を整理します。
NG ⇄ OK 言い換えチートシート
| ❌ うっかり言いがち | ✅ ツッコまれない言い回し |
|---|---|
| 「ChatGPT が一番強い」 | 「総合スコアでは GPT-5.5・Claude Opus・Gemini 3.1 Pro が拮抗してる」 |
| 「AI は何でもできる」 | 「総合スコアは高いけど、用途別に得意・不得意が結構ある」 |
| 「AI に置き換えれば人件費削減」 | 「定型タスクは AI、判断タスクは人間という棚割で生産性 2-3 倍が現実解」 |
| 「うちでも導入しよう」 | 「PoC で 1 タスク試して、ROI を見てから本展開しよう」 |
| 「最新モデルが一番いい」 | 「新しいモデルが必ず良いとは限らない。Intelligence Index と LMArena 両方見て判断する」 |
| 「Claude の方が賢い」 | 「Claude は長文と論理性で強み、ChatGPT はマルチモーダルとプラグインで強み、用途次第」 |
| 「AI は嘘をつく」 | 「ハルシネーション(事実誤認)は構造的問題。一次ソース照合 or RAG で対策する」 |
質問への「型」回答
Q: 「他社は AI でどこまで進んでる?」
A: 「業界全体は『PoC で終わる組織』と『業務組み込みまで進んだ組織』で二極化してます。JPモルガン・Klarna・LegalOn など先進事例では1部門あたり 30〜50% の生産性向上を達成。一方、多くの企業は『どこから手をつけるか』で止まってる状態。うちもまずは1部門で PoC を 3ヶ月回してから、横展開を考えるのが現実解だと思います。」
Q: 「うちで使うべきは ChatGPT、Claude、Gemini どれ?」
A: 「単純な優劣はなくて、業務との相性で選ぶのが正解です。長文ドキュメント処理なら Gemini Pro、コーディング支援なら Claude Code、Word/Excel と統合したいなら Microsoft Copilot、汎用ベースなら ChatGPT Enterprise。まず使いたい業務を 1 つ決めて、それから最適なモデルを選ぶ順番で行きましょう。」
Q: 「○○ という新モデルが出たけど、すごい?」
A: 「3 つの軸で見るといいです。Intelligence Index(総合スコア)、Aider Leaderboard(実コーディング)、LMArena(人間評価)。ベンチ単独で高得点でも実用で評価されないモデルがあるので、3 点測量で判断します。今は Artificial Analysis で最新スコア確認中、結果は来週共有します。」
「初心者にもわかるように説明する」翻訳技
経営層や非技術者に説明する場面では、「業界用語 → 一般用語」翻訳 が肝です。
| 業界用語 | 翻訳(経営・現場向け) |
|---|---|
| トークン | AI が読み書きの最小単位として扱う『塊』。日本語1文字 ≒ 1〜2 トークン |
| コンテキストウィンドウ | AI が一度に読める文章量の上限。100k なら本1冊分 |
| ハルシネーション | AI が事実と違うことを自信満々に答えてしまう現象 |
| プロンプト | AI への指示書。書き方次第で出力品質が大きく変わる |
| ファインチューニング | AI を自社データで追加学習させること |
| RAG(検索拡張生成) | AI が答える前に社内ドキュメントを検索する仕組み |
| エージェント | AI が自分でステップを考えて、ツールを使って自走するモード |
| MCP | AI と外部ツールを繋ぐ業界共通規格(USB Type-C のような立場) |
| 推論モデル | 答える前に内部で長く考える AI(o1 / Claude Extended Thinking など) |
これらを 「業界用語」のまま使うと若手・現場層に伝わらず、逆に 「翻訳しすぎる」と経営層から軽く見られます。
ベストは「業界用語+翻訳の両方を一文で添える」スタイル:
「最近の AI は コンテキストウィンドウ(一度に読める文章量)が 100万トークンになって、社内ドキュメントを丸ごと食わせられる時代になりました。」
これで、業界用語を耳慣れさせつつ、意味も伝わる。両層に届く話し方になります。
鵜呑みにしちゃいけない、3 つの罠
最後に、社内 AI 担当として絶対避けたい失敗パターンを 3 つ。
罠 1: ベンチマーク数値だけ見て即決する
「Claude Opus が SWE-Bench で 82%、GPT-5.5 が 81%」 → だから Claude 採用、は危険。
ベンチマーク数値は 「学習データの偏り」「ベンチ作成側の意図」「測定タイミング」 で簡単に 2-3% 動きます。1〜2% 差は誤差レベル。
安全策: Intelligence Index・Aider Leaderboard・LMArena の 3 つ全部で上位ならまず安心。1 つだけ突出してたら警戒。
罠 2: ベンダーの公式発表だけ信じる
OpenAI・Anthropic・Google は 自社モデルが有利なベンチ を選んで発表する傾向があります。「他社モデルより 5% 上」みたいな発表を鵜呑みにしない。
安全策: 必ず Artificial Analysis や LMArena で 第三者測定 を確認。これらは中立的にすべてのモデルを並べ直してくれます。
罠 3: 「AI で完結する」を前提にしない
「AI で自動化したら人件費削減」は、AI 単独でやらせるのが前提だと大体失敗します。
実態は 「AI が下書き → 人間がレビュー」「AI が候補生成 → 人間が選択」 といったハイブリッド。完全自動化は推論モデルでも失敗例が多い。
安全策: 「AI を使った業務設計」を提案する時は、最後に人間レビューを入れる仕組みをセットで。これがあるか無いかで、現場の信頼が決まります。
月 1 回、5 分の習慣で「業界の動き」を掴む
社内 AI 担当として継続的に情報を仕入れる、月 1 回 5 分の習慣 を提案します:
- Artificial Analysis を開く → 上位 5 モデルの順位変動を確認(1分)
- LMArena のリーダーボードを開く → ベンチ順位と人間評価のズレを確認(1分)
- ai-garage AI モデル比較表 を開く → 日本語解説で全体俯瞰(1分)
- ai-garage News を開く → 直近の業界ニュースを確認(2分)
これを月初の朝礼前にやるだけで、業界の動きに乗り遅れない最低ラインが保てます。
次の一歩
ここまで読んでくれた 新米社内 AI 担当のあなた が、次に手をつけるとしたら:
- 自分の「武器」を 1 個に絞る:ChatGPT 系・Claude 系・Copilot 系から 1 つ、業務で深く使いこなす。「使ったことがない AI を語る」ほど怖いものはない
- PoC を 1 件、3 ヶ月で回す:規模は小さくて OK。1 部門 × 1 タスク × 3 ヶ月で「やって、計測して、報告する」を1サイクル完走することが資産になる
- 「業界の人」と繋がる:X、Discord、勉強会、社外コミュニティ。同業の AI 担当者は意外にたくさんいる。彼らから現場感を仕入れるのが最も効率的
- 「分からないこと」を素直に言う訓練:「これは私も詳しくない、調べて来週共有します」と言える AI 担当は信頼される。全部知ってるふりは長期的に必ず崩壊する
結論
社内 AI 担当は、「専門家ではない、でも素人より知ってる」 という絶妙なポジション。
その立ち位置で大事なのは、「全部知ること」じゃなくて、「業界の地図と座標軸を持つこと」。
- Intelligence Index で『総合スコア』を知る
- LMArena で『人間評価』を照合する
- 個別ベンチで『用途別』を見る
- ベンダー発表は鵜呑みにせず第三者指標で再確認する
- 業界用語を翻訳しながら両層に届く話し方をする
- 月 1 回 5 分の習慣で動向を追う
これだけで、明日から 「ちゃんと分かってる AI 担当」 として振る舞えます。
完璧を目指さず、地図を持つこと。
それが社内 AI 担当として、長く続けるためのコツだと、私は思っています。
参考・一次ソース