Column 2026年5月22日

「AI 担当」に任命された日のための、最低限の『分かったふり』ガイド

社内 AI 担当に任命された、でも正直そんなに詳しくない。経営層・現場・他部署からの質問にツッコまれずに『分かってる人』として振る舞うための、知っておくべき指標と話し方を ai-garage 編集部が整理。

Seiya Yagashiro

Editor-in-Chief, ai-garage

#ベンチマーク #AI導入

「あの〜、AI のことに詳しいって聞いたんですが…ちょっと相談いいですか？」

ある朝、隣の部署の課長がそう話しかけてきた。

あなたは数ヶ月前、ふと社内で「AI 関係、誰がやる？」と話題になった時に、たまたま ChatGPT を業務で使っていたことをポロッと話してしまった。

それから半年。気がついたら、社内では 「AI 担当の人」 として認知されている。

経営層からは「他社は AI でいくら削減してる？」と聞かれ、現場からは「ChatGPT と Claude、どっちがいい？」と聞かれ、他部署からは「うちの業務で使えそうな AI ある？」と聞かれる。

…正直そこまで詳しくない。

でも今さら「いやそんな詳しくないんです」とは言えない。専門家ほどじゃないけど、一般人よりちょっと詳しく語れる程度には、最低限の武装をしておきたい。

この記事は、そんな 「社内 AI 担当」のあなた のためのガイドです。

直面する 3 つの場面

社内 AI 担当として、おそらく繰り返し直面するのはこの 3 つ：

経営層への報告：「AI で何が変わってる？」「他社はどこまで進んでる？」
現場への説明：「業務で使いたい」「うちでも導入して」
他社比較・新モデル評価：「○○ という新モデルが出たけど、うちにとってどう？」

これら全部、「最低限の指標と語彙」を押さえれば、9 割は乗り切れる。

逆に言えば、「最低限の指標と語彙」を知らないと、永遠に毎回ググるか、AI に毎回聞くかの繰り返しで疲弊する。

これだけ覚えれば「分かってる人」感が出る、5 つの指標

専門家でなくとも、社内 AI 担当として知っておきたい指標はこの 5 つ。これだけで、9 割の会話を乗り切れます。

1. Intelligence Index（総合知能スコア）

Artificial Analysis が公開する、AI モデルの 「総合的な賢さ」を 0〜100 点 で表す指標。MMLU や GPQA など複数のベンチマークを加重平均したものです。

使い所: 「現状、賢いと言われてる AI モデルは？」「業界トップは？」
読み方: 70 以上で「実用レベル」、80 以上で「業界最先端」
2026年5月時点: GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro がトップ集団

会議で「Intelligence Index で見ると…」と一言挟むだけで、「この人ちゃんと業界指標見てる」感が出ます。

詳しくは → Intelligence Index 用語解説

2. Cost per MTok（百万トークン単価）

AI の料金単位。100万トークン（≒日本語50〜100万文字）あたりのドル料金 で、input（入力）と output（出力）で別計算。

使い所: 「うちで月いくらかかる？」の見積もり
読み方: 同性能でも 3〜30 倍の価格差があるので、用途と予算で選ぶ
ざっくり感覚:
- 高級モデル（Claude Opus）: input $15 / output $75
- バランス（GPT-5.5）: input $5 / output $15
- 安価（Gemini Flash）: input $1.5 / output $9
- 激安（DeepSeek）: input $0.3 / output $1

「コスト感」を語れると、経営層からの信頼度が一気に上がります。

詳しくは → Cost per MTok 用語解説

3. コンテキストウィンドウ（Context Window）

AI が一度に 読み込める情報量の上限。トークン単位で表します。

使い所: 「長文を扱える？」「社内ドキュメント全部食わせられる？」
読み方: 100k = 短い本1冊分、1M（1,000,000）= 専門書5〜10冊分
2026年5月時点: Gemini Pro 系は 1M トークン、Claude Opus は 200k〜1M、GPT-5.5 は 400k

「うちの業務文書、AI に全部読ませたい」みたいな相談を受けたときに、「コンテキストウィンドウ的にこのモデルなら入りそう」 と返せると、頼れる担当として認知されます。

4. SWE-Bench Verified（実コード修正ベンチ）

実際の OSS プロジェクトのバグを AI が修正できるかを測る、コーディング能力のデファクト指標。

使い所: 「開発で AI 使うとどれくらい効く？」「Cursor 入れていい？」
読み方: 70% 超えは「実戦投入できる」、80% 超えは「ジュニアエンジニア相当」
2026年5月時点: GPT-5.5・Claude Opus 4.7 が 80% 超え

開発部門との会話で「SWE-Bench で 80% って、これジュニアエンジニア1人分くらいですよ」と説明できると、話が早くなります。

詳しくは → SWE-Bench 用語解説

5. TPS（Tokens Per Second、出力速度）

AI が 1 秒間に生成できる文字数の指標。チャット用なら 50 TPS で十分、エージェント用途では 150〜300 TPS が体感差になる。

使い所: 「動作が遅い」「リアルタイム応答できる？」
読み方: チャットで違和感ないのは 40 TPS〜、業務エージェントなら 150 TPS+
2026年5月時点: Gemini Flash 系・Groq 経由の Llama が高速、推論モデルは構造的に遅い

「もっさり感」の正体を数値で語れると、現場の不満を技術的に整理できます。

詳しくは → TPS 用語解説

「専門家にツッコまれない」最低限の表現

ここまでで「指標を知る」段階。次は 「どう話すか」 です。

専門家にツッコまれない、でも素人にも分かる、ちょうど良い表現の型を整理します。

NG ⇄ OK 言い換えチートシート

❌ うっかり言いがち	✅ ツッコまれない言い回し
「ChatGPT が一番強い」	「総合スコアでは GPT-5.5・Claude Opus・Gemini 3.1 Pro が拮抗してる」
「AI は何でもできる」	「総合スコアは高いけど、用途別に得意・不得意が結構ある」
「AI に置き換えれば人件費削減」	「定型タスクは AI、判断タスクは人間という棚割で生産性 2-3 倍が現実解」
「うちでも導入しよう」	「PoC で 1 タスク試して、ROI を見てから本展開しよう」
「最新モデルが一番いい」	「新しいモデルが必ず良いとは限らない。Intelligence Index と LMArena 両方見て判断する」
「Claude の方が賢い」	「Claude は長文と論理性で強み、ChatGPT はマルチモーダルとプラグインで強み、用途次第」
「AI は嘘をつく」	「ハルシネーション（事実誤認）は構造的問題。一次ソース照合 or RAG で対策する」

質問への「型」回答

Q: 「他社は AI でどこまで進んでる？」

A: 「業界全体は『PoC で終わる組織』と『業務組み込みまで進んだ組織』で二極化してます。JPモルガン・Klarna・LegalOn など先進事例では1部門あたり 30〜50% の生産性向上を達成。一方、多くの企業は『どこから手をつけるか』で止まってる状態。うちもまずは1部門で PoC を 3ヶ月回してから、横展開を考えるのが現実解だと思います。」

Q: 「うちで使うべきは ChatGPT、Claude、Gemini どれ？」

A: 「単純な優劣はなくて、業務との相性で選ぶのが正解です。長文ドキュメント処理なら Gemini Pro、コーディング支援なら Claude Code、Word/Excel と統合したいなら Microsoft Copilot、汎用ベースなら ChatGPT Enterprise。まず使いたい業務を 1 つ決めて、それから最適なモデルを選ぶ順番で行きましょう。」

Q: 「○○ という新モデルが出たけど、すごい？」

A: 「3 つの軸で見るといいです。Intelligence Index（総合スコア）、Aider Leaderboard（実コーディング）、LMArena（人間評価）。ベンチ単独で高得点でも実用で評価されないモデルがあるので、3 点測量で判断します。今は Artificial Analysis で最新スコア確認中、結果は来週共有します。」

「初心者にもわかるように説明する」翻訳技

経営層や非技術者に説明する場面では、「業界用語 → 一般用語」翻訳 が肝です。

業界用語	翻訳（経営・現場向け）
トークン	AI が読み書きの最小単位として扱う『塊』。日本語1文字 ≒ 1〜2 トークン
コンテキストウィンドウ	AI が一度に読める文章量の上限。100k なら本1冊分
ハルシネーション	AI が事実と違うことを自信満々に答えてしまう現象
プロンプト	AI への指示書。書き方次第で出力品質が大きく変わる
ファインチューニング	AI を自社データで追加学習させること
RAG（検索拡張生成）	AI が答える前に社内ドキュメントを検索する仕組み
エージェント	AI が自分でステップを考えて、ツールを使って自走するモード
MCP	AI と外部ツールを繋ぐ業界共通規格（USB Type-C のような立場）
推論モデル	答える前に内部で長く考える AI（o1 / Claude Extended Thinking など）

これらを 「業界用語」のまま使うと若手・現場層に伝わらず、逆に 「翻訳しすぎる」と経営層から軽く見られます。

ベストは「業界用語＋翻訳の両方を一文で添える」スタイル：

「最近の AI は コンテキストウィンドウ（一度に読める文章量）が 100万トークンになって、社内ドキュメントを丸ごと食わせられる時代になりました。」

これで、業界用語を耳慣れさせつつ、意味も伝わる。両層に届く話し方になります。

鵜呑みにしちゃいけない、3 つの罠

最後に、社内 AI 担当として絶対避けたい失敗パターンを 3 つ。

罠 1: ベンチマーク数値だけ見て即決する

「Claude Opus が SWE-Bench で 82%、GPT-5.5 が 81%」 → だから Claude 採用、は危険。

ベンチマーク数値は 「学習データの偏り」「ベンチ作成側の意図」「測定タイミング」 で簡単に 2-3% 動きます。1〜2% 差は誤差レベル。

安全策: Intelligence Index・Aider Leaderboard・LMArena の 3 つ全部で上位ならまず安心。1 つだけ突出してたら警戒。

罠 2: ベンダーの公式発表だけ信じる

OpenAI・Anthropic・Google は 自社モデルが有利なベンチ を選んで発表する傾向があります。「他社モデルより 5% 上」みたいな発表を鵜呑みにしない。

安全策: 必ず Artificial Analysis や LMArena で 第三者測定 を確認。これらは中立的にすべてのモデルを並べ直してくれます。

罠 3: 「AI で完結する」を前提にしない

「AI で自動化したら人件費削減」は、AI 単独でやらせるのが前提だと大体失敗します。

実態は 「AI が下書き → 人間がレビュー」「AI が候補生成 → 人間が選択」 といったハイブリッド。完全自動化は推論モデルでも失敗例が多い。

安全策: 「AI を使った業務設計」を提案する時は、最後に人間レビューを入れる仕組みをセットで。これがあるか無いかで、現場の信頼が決まります。

月 1 回、5 分の習慣で「業界の動き」を掴む

社内 AI 担当として継続的に情報を仕入れる、月 1 回 5 分の習慣 を提案します：

Artificial Analysis を開く → 上位 5 モデルの順位変動を確認（1分）
LMArena のリーダーボードを開く → ベンチ順位と人間評価のズレを確認（1分）
ai-garage の AIモデル比較表を開く → 日本語解説で全体俯瞰（1分）
ai-garage News を開く → 直近の業界ニュースを確認（2分）

これを月初の朝礼前にやるだけで、業界の動きに乗り遅れない最低ラインが保てます。

次の一歩

ここまで読んでくれた 新米社内 AI 担当のあなた が、次に手をつけるとしたら：

自分の「武器」を 1 個に絞る：ChatGPT 系・Claude 系・Copilot 系から 1 つ、業務で深く使いこなす。「使ったことがない AI を語る」ほど怖いものはない
PoC を 1 件、3 ヶ月で回す：規模は小さくて OK。1 部門 × 1 タスク × 3 ヶ月で「やって、計測して、報告する」を1サイクル完走することが資産になる
「業界の人」と繋がる：X、Discord、勉強会、社外コミュニティ。同業の AI 担当者は意外にたくさんいる。彼らから現場感を仕入れるのが最も効率的
「分からないこと」を素直に言う訓練：「これは私も詳しくない、調べて来週共有します」と言える AI 担当は信頼される。全部知ってるふりは長期的に必ず崩壊する

結論

社内 AI 担当は、「専門家ではない、でも素人より知ってる」 という絶妙なポジション。

その立ち位置で大事なのは、「全部知ること」じゃなくて、「業界の地図と座標軸を持つこと」。

Intelligence Index で『総合スコア』を知る
LMArena で『人間評価』を照合する
個別ベンチで『用途別』を見る
ベンダー発表は鵜呑みにせず第三者指標で再確認する
業界用語を翻訳しながら両層に届く話し方をする
月 1 回 5 分の習慣で動向を追う

これだけで、明日から 「ちゃんと分かってる AI 担当」 として振る舞えます。

完璧を目指さず、地図を持つこと。

それが社内 AI 担当として、長く続けるためのコツだと、私は思っています。

参考・一次ソース

この記事をシェア

Xでシェア

2026/7/16

AIは100を返してくる。次の課題は「認知負荷」だ

2026/5/18

AI 時代に人が買うのは、結局「らしさ」だ

2026/5/14