AI用語集

ASI シンギュラリティ asi singularity alignment

Artificial General Intelligence

あらゆる知的作業を人間並みにこなせるAIの理論段階。

特定のタスクだけが得意な今のAIと違い、人間ができる知的作業ならジャンルを問わず何でもこなせる、と想定される汎用的なAIのことです。たとえば、文章も書けてプログラムも組めて、初めて見る問題も自分で考えて解決し、必要なら新しいスキルを自力で身につける——そんな「人間並みに何でも屋」な知能を指します。なぜ重要かというと、AGIが実現すれば研究開発や仕事の進め方が根本から変わるとされ、各社がその到達時期を競って議論しているからです。例えるなら、いまのAIが「特定教科だけ満点の専門家」だとすれば、AGIは「どの教科でも自分で学んで対応できる万能の人」のイメージです。なお、AGIには世界共通の厳密な定義はまだなく、「どこからがAGIか」自体が研究者の間で論争になっています。さらにその先、人間をはるかに超える知能を「ASI（超知能）」と呼んで区別します。

関連用語

詳しく見る →

AI（人工知能）

生成AI 機械学習深層学習 generative-ai ml dl llm

Artificial Intelligence

人間っぽい判断をするコンピュータの総称。

AI（人工知能）とは、人間が頭を使ってやっていた「認識・判断・予測・生成」といった知的な作業を、コンピュータに肩代わりさせる技術の総称です。「考えて答えを出す機械」と聞くとSF的に感じますが、実際はスマホの顔認証、メールの迷惑メール振り分け、地図の最短ルート案内など、すでに身近なところで動いています。なぜ今これほど注目されているかというと、2022年末のChatGPT登場で「文章や画像を自分で作り出すAI（生成AI）」が誰でも使える形になり、仕事や暮らしへの影響が一気に現実味を帯びたからです。AIは大きな傘のような言葉で、その内側に「機械学習（データからルールを覚える手法）」があり、さらにその一部に「深層学習（人間の脳を模したニューラルネットワークを使う手法）」があり、いま話題のChatGPTなどはその深層学習を土台にした「生成AI」にあたります。つまりAIは技術ジャンルの総称、生成AIやLLMはその中の具体的な一分野、と整理して読むと混乱しません。

関連用語

詳しく見る →

ASI（超知能）

Artificial Super Intelligence

人間の知能を遥かに超えるAIの理論段階。

ASI（Artificial Super Intelligence＝人工超知能）とは、科学・創造性・社会的スキルなど、ほぼすべての分野で人間の最高レベルをはるかに上回る、まだ実現していない理論段階のAIのことです。今のAIは特定タスクが得意なだけ、その先のAGIは「人間並みに何でもこなせる」段階で、ASIはさらにその上――人類が束になっても全く歯が立たないレベルを指します。たとえるなら、人間とチンパンジーの知能差が、人間とASIの間にできてしまうイメージです。なぜ重要かというと、ASIは自分自身をどんどん改良して爆発的に賢くなる（知能爆発）可能性があり、登場すれば社会のしくみが根本から書き換わると考えられているからです。そのため「人間の価値観とずれたまま暴走しないか」という安全研究（アライメント）の最終目標として、研究者の間で真剣に議論されています。現時点ではあくまで未来の概念であり、いつ実現するか、本当に実現するのかも分かっていません。

詳しく見る →

GPU

TPU 推論学習 tpu inference training llm

Graphics Processing Unit

AIの学習・推論に欠かせない並列計算チップ。

GPU（Graphics Processing Unit）は、もともと3Dゲームなどの画面描画のために作られた計算チップです。画面の何百万ものピクセルを同時に処理する必要があったため、たくさんの小さな計算を一気に並列でこなすことに特化して進化しました。この「大量の単純計算を同時にさばく」性質が、AIの学習や推論で行われる膨大な行列計算とぴったり合っていたため、いまではAI開発に欠かせない中心的なハードウェアになっています。たとえるなら、CPUが「少人数の優秀なスタッフが順番に難しい仕事を片づける」のに対し、GPUは「大勢のスタッフが同じ作業を一斉に分担する」イメージです。この分野はNVIDIAが圧倒的なシェアを持ち、データセンター向けのH100やB200といった製品、そして専用ソフトウェア基盤のCUDAが事実上の業界標準になっています。似た役割のチップにGoogleが自社開発したTPUがありますが、GPUは特定企業に縛られず幅広く使える汎用性の高さが強みです。

関連用語

Model

学習し終わったAIの本体。

AIにおける「モデル」とは、大量のデータで学習し終わったAIの本体（成果物）のことです。料理にたとえると、レシピ通りに材料（データ）を煮込む工程が「学習（トレーニング）」で、出来上がった料理そのものが「モデル」にあたります。ChatGPT や Claude、Gemini といった製品はどれも内部にこのモデルを積んでいて、私たちが質問を入れると、モデルがその場で答えを計算して返します（これを「推論」と呼びます）。モデルが重要なのは、AIの賢さや得意分野が、学習データとパラメータ（学習で調整される無数の数値）によってこのモデルの中に固定されるからです。同じ製品名でも「GPT-5」「Claude Opus」「軽量版」のように複数のモデルが切り替わることがあり、選ぶモデルしだいで賢さ・速さ・料金が変わります。なお「AI」が分野全体を指す大きな言葉なのに対し、「モデル」はその中で実際に動く一つの中身、という関係になります。

詳しく見る →

学習

inference fine-tuning parameter ml

Training / 訓練

AIにデータを読ませて賢くする工程。

学習（トレーニング）とは、AIに大量のデータを読み込ませて、モデル内部の無数の数値（パラメータ＝重み）を少しずつ調整し、正しい答えを出せるように育てていく工程のことです。 AIが知識や判断のクセを身につけるのはこの段階だけで、ここで賢さの土台が決まるため、AI開発のなかでも最も時間とコスト（大量のGPUと電力）がかかる中心的な工程です。仕組みとしては、AIに問題を解かせて「正解とのズレ（誤差）」を測り、そのズレが小さくなる方向へパラメータをほんの少し動かす――これを何十億回も繰り返します。漢字ドリルを何度も解いて少しずつ正答率を上げる作業に近いイメージです。学習が終わって完成したAIに、実際に質問して答えさせる工程は「推論」と呼ばれ、ふだん私たちがChatGPTを使う行為はほぼすべて推論にあたります。学習は“勉強する側”、推論は“勉強した知識を使う側”と覚えると分かりやすいです。ゼロから大量データで行う最初の学習は特に「事前学習」と呼び、そこに自社データで追加の学習を重ねて用途を合わせ込むのが「ファインチューニング」です。どちらもパラメータを書き換える点で、モデル本体は変えずに指示や外部データで工夫するプロンプトやRAGとは性質が異なります。

関連用語

詳しく見る →

機械学習（ML）

深層学習学習推論 ai dl training neural-network

Machine Learning

データから自動でルールを覚える技術。

機械学習（ML）とは、人間が一つひとつルールを書く代わりに、大量のデータをコンピュータに読ませて「データの中のパターンや規則性を自分で見つけさせる」技術です。たとえば迷惑メールの判定では、「この単語が入っていたら迷惑メール」と手作業で条件を並べるのではなく、過去の大量のメールを学習させて、迷惑メールらしさの特徴を自動でつかませます。なぜ重要かというと、現実の問題は条件が複雑すぎて人間が全部書ききれないことが多く、データから学ばせるほうが正確で柔軟だからです。身近な例では、写真アプリの顔認識、動画サイトのおすすめ、スマホの予測変換などがすべて機械学習で動いています。よく似た言葉に「AI」と「ディープラーニング」がありますが、AIという大きな分野の中に機械学習があり、その機械学習の一種でニューラルネットワークを何層も重ねた手法がディープラーニングだ、という入れ子の関係になっています。現代の生成AIやChatGPTのようなサービスも、この機械学習を土台に作られています。

関連用語

詳しく見る →

深層学習（ディープラーニング）

Deep Learning / DL

層をたくさん重ねたニューラルネットによる学習。

深層学習（ディープラーニング／Deep Learning, DL）とは、人間の脳の神経回路をざっくりまねた「ニューラルネットワーク」を何層も深く積み重ねて、大量のデータからパターンを自動で学ばせる機械学習の一種です。「深層（ディープ）」という名前は、この層の数が多い＝ネットワークが深いことに由来します。従来の機械学習では人間が「どこに注目して判断するか（特徴量）」を手作業で設計していましたが、深層学習はその特徴のとらえ方そのものをデータから自分で見つけ出すのが最大の違いで、画像認識・音声認識・翻訳などの精度を一気に押し上げました。身近な例えでいうと、子どもがネコの写真を何枚も見るうちに「耳の形」「ひげ」といった手がかりを誰にも教わらず自然に覚えていくのに近く、深層学習も大量のデータからそうした見分け方を自力で獲得します。2012年の画像認識コンテストでの大躍進をきっかけに2010年代のAIブームの土台となり、ChatGPT や Claude などの今の生成AIも、この深層学習の延長線上にある技術です。なお「機械学習」という大きな枠の中に「深層学習」があり、その代表的な部品が「ニューラルネットワーク」という入れ子の関係を押さえると混乱しません。

詳しく見る →

推論

Inference

学習済みのAIに質問して答えを得る作業。

学習済みのAIモデルに入力（プロンプト）を渡して、答えを計算させて出力する工程を「推論（inference）」といいます。私たちがChatGPTに質問して返事をもらう、画像生成AIに絵を描かせる——こうした「AIを使う」場面は、ほぼすべてこの推論です。重要なのは、AIの賢さは学習で決まる一方、毎回の応答スピードや利用料金（APIなら主にトークン課金）はこの推論時に発生する、という点です。たとえば学習が「教科書で勉強して知識を身につけること」だとすれば、推論は「テスト本番で問題を解いて答えを書くこと」にあたります。同じく工程の名前である「学習（training）」とは逆向き——学習はモデルを作る側、推論は作ったモデルを使う側です。なお名前の似た「推論モデル（reasoning model）」は別概念で、こちらは“答える前にじっくり考える”タイプのモデルを指します。

詳しく見る →

生成AI 🔥

Generative AI / ジェネレーティブAI

文章・画像・音声・コードなどを「作る」AI。

LLM・テキスト

Supervised Fine-Tuning / 教師ありファインチューニング / 指示チューニング

TTFT context-window streaming

Output Speed / tokens/sec / 出力速度

用途別の目安（チャット40〜80／エージェント150〜300）で読む出力速度。秒間トークン数が高いほどサクサク返る。

TPS（Tokens Per Second）は、AI モデルが 1 秒間に出力できるトークン数を表す速度指標です。日本語1文字 ≈ 1〜2 トークン換算で、150 TPS なら 1 秒間に 75〜150 文字が画面に流れます。チャット用途では「人間が読むより速ければ十分」(40〜80 TPS) ですが、エージェント・コーディングなど「裏で大量に処理する」用途では 150〜300 TPS が体感差を生みます。ベンダーごと・モデルごとに大きく異なり、Artificial Analysis などが定期的に計測・公開しています。

関連用語

Vector Database / Vector DB

Embeddingsを保存・検索するための専用DB。

ベクトルDB（ベクトルデータベース）は、Embeddings（言葉や画像を意味ごとに数字の列へ変換したもの）を大量に保存し、「意味が近いもの」を高速に探すために特化したデータベースです。ふつうのデータベースが「IDや日付が完全一致する行」を探すのに対し、ベクトルDBは「この文章と意味が似ているデータ」を距離計算（コサイン類似度など）で探せるのが大きな違いです。たとえば「返品したい」という質問に対し、言葉は違っても意味の近い「返金ポリシー」の社内文書を引っ張ってこられます。何百万件もある中から似たものを瞬時に見つけるため、内部では近似最近傍探索（ANN、HNSWなどのアルゴリズム）という工夫を使っています。RAG（検索拡張生成）でAIに社内情報を読ませる仕組みの心臓部であり、代表例には Pinecone・Weaviate・Qdrant・Milvus・Chroma や、PostgreSQL に後付けできる pgvector などがあります。

詳しく見る →

マルチモーダル

Multimodal

文章・画像・音声などを同時に扱えるAI。

マルチモーダルとは、テキストだけでなく、画像・音声・動画・コードなど複数の形式（モード）を1つのAIでまとめて扱える性質のことです。「モーダル＝情報の種類」を意味し、複数の種類を横断できることからこう呼ばれます。従来のAIは文章なら文章だけ、画像なら画像だけと専門が分かれていましたが、マルチモーダル化によって「写真を見せて質問する」「グラフを読み取って要約する」「音声で話しかける」といった、人間に近い自然なやり取りが一気に実現しました。たとえば、料理の写真を撮ってレシピを聞く、エラー画面のスクショを貼って原因を尋ねる、手書きメモを読ませて文字起こしする、といった使い方ができます。よく似た言葉に「画像生成AI」がありますが、あれは主に「文章→画像」と一方向に変換するもので、マルチモーダルは入力も出力も複数の種類を行き来できる点が異なります。2024年以降はGPT-4o・Gemini・Claudeなど主要モデルのほとんどが標準でマルチモーダルに対応し、いまや特別な機能ではなく当たり前の前提になっています。

function-calling mcp agent computer-use

Quantization

モデルを軽くして安いPCでも動かす技術。

エージェント・ツール

ツール利用 / ツール使用

AIが計算機やブラウザを「自分で」使うこと。

Tool use（ツール利用）とは、AIが文章を生成するだけでなく、計算機・Web検索・コード実行・ブラウザ操作・社内システムへの問い合わせといった「外部の道具」を、自分の判断で呼び出して使う仕組みのことです。これが重要なのは、言語モデル単体は「学習した知識を思い出して文章を作る」ことしかできず、最新の天気も、正確な計算も、社内データベースの中身も本来は知らないからです。道具を使えるようにすると、AIは苦手分野を外部に任せて、できることが一気に広がります。たとえば「東京の明日の天気を教えて」と頼まれたとき、AIが裏で天気APIを叩いて結果を読み、それをもとに答える——これがツール利用です。人間が暗算をやめて電卓を使い、記憶に頼らず検索するのと同じ発想です。仕組みとしては、AIが「この道具をこの引数で使いたい」と出力し、プログラム側が実際に実行して結果をAIに返す、という往復で動きます。この道具を呼び出す部分の実装が Function calling、道具をAIに渡すための共通規格が MCP です。そしてツール利用は、AIエージェントの土台でもあります。「考える→道具を使う→結果を見てまた考える」を繰り返せるようになって初めて、AIは調べものや作業を自走できるようになります。

関連用語

詳しく見る →

エージェントメモリ

エージェント・ツール

Agent Memory

AIが「前回の会話」を覚えておくしくみ。

エージェントメモリとは、AIがセッション（会話）をまたいで、ユーザーの好み・過去のやり取り・学んだ事実などを覚えておくしくみのことです。ふだんAIは1回の会話が終わると内容を忘れてしまいますが、メモリがあると「前回の続き」から話せて、毎回同じ自己紹介をしなくて済みます。これが重要なのは、AIが単発の質問応答ツールから「あなたを知っている相棒」へと変わる鍵になるからで、ChatGPT・Claude・Gemini など主要サービスが続々と実装しています。技術的には、その場の会話だけを覚える「短期記憶（コンテキストウィンドウ）」と、セッションをまたいで残る「長期記憶」に分かれ、長期記憶は過去の出来事を覚える episodic（エピソード記憶）と、事実・知識を覚える semantic（意味記憶）などに整理されます。長期記憶は会話の要点を抜き出してベクトルDBなどに保存し、必要なときだけ取り出して文脈に足す（RAG に近い）しくみで動くのが一般的です。似た言葉のコンテキストウィンドウは「1回の会話で同時に読める文章量の上限」を指し、会話が終われば消える短期記憶にあたる点が、保存され続けるエージェントメモリとの違いです。

詳しく見る →

マルチエージェント 🔥

エージェント・ツール

Multi-Agent System

複数のAIが役割分担して協力する構成。

業務・ビジネス

AA / Artificial Analysis Inc.

AIモデルの知能・速度・価格を同じ基準で横並び比較できる第三者サイト。各社ベンチのクロスチェック源。

Artificial Analysis（artificialanalysis.ai）は、世界中の AI モデルの性能・速度・価格を独立に計測・公開する第三者ベンチマークサイトです。 Intelligence Index（総合知能スコア）・Output Speed（TPS）・Latency（TTFT）・Pricing を統一基準で提供しています。 ChatGPT・Claude・Gemini・Llama・DeepSeek など主要モデルを月次でアップデート、 Open AI・Anthropic・Google など各社が独自ベンチで好スコアを出した時の「クロスチェック源」として業界で広く参照されます。 Stripe・Salesforce・Cohere など大手 IT 企業の AI モデル選定でもリファレンスとして使われている、業界デファクトの座標軸です。

関連用語

Intelligence Index TPS TTFT LMArena

詳しく見る →

Cost per MTok（百万トークン単価） 🔥

業務・ビジネス

per Million Tokens / MTok 単価 / API 料金

業務・ビジネス

Rate Limit / レート制限 / 利用制限

主要AI各社の上限（RPM/TPM）の違いと、429エラーの回避策。APIを「1分あたり何回まで」に制限する仕組み。

LMSys Arena / LMArena / Arena

人間のブラインドテストで決めるAIランキング。

Chatbot Arena（チャットボット・アリーナ）は、2つのAIに同じ質問を投げて、人間のユーザーが「どちらの答えが好きか」を投票し、その積み重ねでAIをランキングするしくみです。研究グループ LMSYS（UC Berkeley 発）が2023年に立ち上げ、その後 LMArena として独立、2026年1月に「Arena」へ改称し、現在は arena.ai で運営されています（古いリンク lmarena.ai もここへ転送されます）。どうして注目されるかというと、テスト用の問題集（ベンチマーク）で高得点でも、実際に使うと答えが回りくどかったり的外れだったりするモデルがあるからです。Arena は「人間が触ってどう感じたか」を直接すくい取るので、体感に近い指標として各社が気にします。たとえるなら、料理コンテストで審査員が2皿を食べ比べて「こっちが美味しい」と票を入れる対決を、何百万回も繰り返して順位を出すイメージです。どちらのAIが回答したかは投票時に伏せられている（ブラインド）ので、ブランド名に引っ張られない公平な評価になります。集まった票は Elo レーティング（チェスのレーティングと同じ考え方）に基づくスコアとして点数化され、総合だけでなくコーディングや数学など部門別の順位も公開されます。ベンチマークが「正解との一致」を測るのに対し、Arena は「人間の好み」を測る、という違いを押さえておくと使い分けやすくなります。

詳しく見る →

GPQA

Graduate-Level Google-Proof QA

ググっても答えが出ない博士課程レベルの理系難問集。推論モデルの真価が問われる難所。

Chatbot Arena / LMSYS Arena / Arena

人間が「どちらの回答が良かったか」を投票して AI モデルをランキング化する、人間評価ベース指標。

LMArena（旧 Chatbot Arena）は、2つの AI モデルの回答を匿名で並べて、人間ユーザーが「どちらが良かったか」を投票することでモデルランキングを作る、人間評価ベースの AI ベンチマークです。 UC Berkeley 発の研究グループ LMSYS が立ち上げ、その後独立企業として法人化。2026年1月に「Arena」へ改称し、現在は arena.ai で運営されています（旧 lmarena.ai もここへ転送）。 Elo レーティング方式で各モデルにスコアが付与され、Hard Prompts・Coding・Math など部門別ランキングも公開。「ベンチマークでは高得点だが実際の使い心地は微妙」というモデルがここで馬脚を表すこともあり、ベンチ点数とユーザー満足度の乖離を見るのに有用です。Google・OpenAI・Anthropic も新モデルリリース時の指標として引用しています。

詳しく見る →

MMLU

Massive Multitask Language Understanding

AIの「総合学力テスト」みたいなベンチ。

MMLU（Massive Multitask Language Understanding）は、AIの幅広い知識と理解力を測る代表的な総合ベンチマークです。歴史・法律・医学・数学・物理・倫理など57科目にわたる4択問題（合計1万5千問前後）を解かせ、正答率でモデルの「総合学力」を採点します。各社の新モデル発表では必ずと言っていいほどスコアが引き合いに出されるため、AIの賢さを横並びで比べる共通の物差しとして重要です。学校の共通テストや模試のAI版だとイメージすると分かりやすく、受験者（＝モデル）が違っても同じ問題なら実力を比較できる、という発想です。ただし2020年の登場から数年でトップモデルが90%超に達して差がつきにくくなり（飽和）、現在はより難しい MMLU-Pro や GPQA、HLE などの上位版へ主役が移りつつあります。点数が高い＝あらゆる用途で最強とは限らず、問題が学習データに混ざる「汚染」もあるため、1つの数字を鵜呑みにしないことが大切です。

詳しく見る →

SWE-Bench 🔥

SWE-Bench Verified

実際のGitHubバグをAIが直せるかを測る。

SWE-Bench（エスダブリューイー・ベンチ）は、実在するOSS（オープンソースソフトウェア）の本物のバグ報告を集めて、AIに自力で修正させ、開発者が用意したテストに通るかどうかで採点するベンチマークです。GitHub 上の実際の課題（Issue）とその修正コミットをもとに作られているため、クイズ的なコード問題ではなく「現場のエンジニアが直面する作業をどこまで任せられるか」を測れるのが特徴で、AIのコーディング能力を示す最重要指標として Claude・GPT・Gemini の主戦場になっています。たとえば「ある関数のバグを直して」という1問でも、AIは複数ファイルを読み解き、原因を特定し、既存コードを壊さずに修正する必要があり、これは実務に非常に近い難しさです。コードを1個書かせるだけの HumanEval が今のモデルではほぼ満点なのに対し、SWE-Bench は「複数ファイルにまたがる実バグの修正」というより実践的な点で位置づけが異なります。なお、ノイズの多い問題を人手で精査した高品質版「SWE-Bench Verified」がよく引用され、近年は飽和してきたため、さらに難しい SWE-Bench Pro が後継として登場しています。

詳しく見る →

SWE-Bench Pro