AI GLOSSARY
AI用語集
「LLMって何?」「RAGって略すけど?」「エージェントってAI界の何?」—— ニュースやSNSでなんとなく見かけるけど、いちいち調べるのは面倒な用語を、 86語まとめてやさしい日本語で解説しています。
🔥最近よく聞く用語
📘基礎用語
AIの世界に入るときに最初に出会う言葉。
AGI(汎用人工知能) 🔥
基礎用語Artificial General Intelligence
あらゆる知的作業を人間並みにこなせるAIの理論段階。
特定タスクに特化した今のAIではなく、人間がやれることを何でもこなせる汎用知能のことです。 2025〜2026年は「AGIにそろそろ到達するのでは」という議論が業界の最大論点になっています。
関連用語
詳しく見る →
AI(人工知能)
基礎用語Artificial Intelligence
人間っぽい判断をするコンピュータの総称。
人間がやっていた認識・判断・生成といった作業を、コンピュータにやらせる技術の総称です。 ひとくちに「AI」と言ってもジャンルは幅広く、いまブームになっているのは「生成AI(じわっと文章や画像を作るタイプ)」が中心です。
関連用語
詳しく見る →
ASI(超知能)
基礎用語Artificial Super Intelligence
人間の知能を遥かに超えるAIの理論段階。
AGIのさらに先、人類が束になっても勝てないレベルの知能を持つAIのことです。 登場すれば社会のあり方が根本から変わるため、安全研究の最終目標になっています。
関連用語
詳しく見る →
GPU
基礎用語Graphics Processing Unit
AIの学習・推論に欠かせない並列計算チップ。
元はゲームの描画用だったチップですが、並列計算が得意なため AI 計算の中心になりました。 NVIDIA の H100 / H200 / B200 が業界標準で、AI ブームによる需要急増が業界を席巻しています。
関連用語
詳しく見る →
TPU
基礎用語Tensor Processing Unit
Google が自社開発した AI 専用チップ。
Google が自社の AI 計算のために設計した専用チップで、Gemini の学習・推論にフル活用されています。 NVIDIA GPU への依存を減らす動きとして、業界で注目されています。
関連用語
詳しく見る →
シンギュラリティ
基礎用語Technological Singularity / 技術的特異点
AIが人間を超えて文明が一気に書き換わる転換点。
AIが自分自身を改良できるようになった時点で、進化速度が人間が追いつけないほど跳ね上がる、と予想される転換点のことです。 レイ・カーツワイルが2045年と予想していましたが、近年は前倒し説も出ています。
関連用語
詳しく見る →
ニューラルネットワーク
基礎用語Neural Network / NN
人間の脳を真似たAIの計算モデル。
人間の脳のニューロン(神経細胞)のつながりをまねた、入力と出力をつなぐ計算の網です。 途中の重みを調整することで、画像を見分けたり文章を作ったりできるようになります。
関連用語
詳しく見る →
パラメータ
基礎用語Parameters
モデルの賢さを決める「重み」の数。
学習で調整される数値のひとつひとつをパラメータと呼びます。 「7Bモデル」「70B」のように書かれるのは、このパラメータの個数(B=10億)を表しています。
関連用語
詳しく見る →
モデル
基礎用語Model
学習し終わったAIの本体。
「ChatGPT」のような製品の中身にあたる、学習済みのAI本体のことです。 GPT-5、Claude Opus、Gemini Pro のように、製品の中で複数のモデルが切り替わることもあります。
関連用語
詳しく見る →
学習
基礎用語Training
AIにデータを読ませて賢くする工程。
AIに大量のデータを読み込ませて、内部のパラメータ(重み)を調整していく工程のことです。 学習が終わったあとのAIを、実際に使うことを「推論」と言います。
関連用語
詳しく見る →
機械学習(ML)
基礎用語Machine Learning
データから自動でルールを覚える技術。
人間がルールを書く代わりに、大量のデータを読ませて「自分でパターンを見つけてもらう」やり方です。 現代のAIはほぼすべて、この機械学習をベースにしています。
関連用語
詳しく見る →
深層学習(ディープラーニング)
基礎用語Deep Learning / DL
層をたくさん重ねたニューラルネットによる学習。
機械学習のなかでも、人間の脳をざっくりまねた「ニューラルネットワーク」を、何層も深く重ねて使う方式です。 2010年代以降のAIブームの土台になっている技術で、今のChatGPTもこの仲間です。
関連用語
詳しく見る →
推論
基礎用語Inference
学習済みのAIに質問して答えを得る作業。
学習済みのAIに入力を渡して、答えを出させる工程です。 ふだん「ChatGPTを使う」というのは、ほぼ全部この推論にあたります。
関連用語
詳しく見る →
生成AI 🔥
基礎用語Generative AI / ジェネレーティブAI
文章・画像・音声・コードなどを「作る」AI。
ChatGPT や Midjourney のように、新しいコンテンツを「生み出す」タイプのAIをまとめて指す言葉です。 従来の「答えを分類する」AIとは違って、ゼロから文章や絵を作るのが特徴です。
関連用語
詳しく見る →
💬LLM・テキスト
ChatGPT などの大規模言語モデル周辺の用語。
Chain-of-Thought(思考の連鎖)
LLM・テキストCoT
「順を追って考えて」と促すと精度が上がるテク。
「ステップ・バイ・ステップで考えてください」とAIに指示することで、推論の精度を上げる手法のことです。 今は最初から思考の連鎖を内蔵した「推論モデル」が主流になりつつあります。
関連用語
詳しく見る →
Few-shot プロンプト
LLM・テキストFew-shot Learning
プロンプトに「例」を数個入れて精度を上げるテク。
「こういう質問にはこう答えてほしい」という例をプロンプトに数個入れることで、AIの出力をぐっと安定させるテクニックです。 例を1個だけ入れるのは One-shot、入れないのは Zero-shot と呼ばれます。
関連用語
詳しく見る →
LLM(大規模言語モデル) 🔥
LLM・テキストLarge Language Model
ChatGPTなどの中身。文章を理解して生成するAI。
膨大な文章データを学習した、大きなサイズの言語モデルのことです。 ChatGPT・Claude・Gemini はみんな LLM の上に作られています。
関連用語
詳しく見る →
SFT(教師あり微調整)
LLM・テキストSupervised Fine-Tuning
正解付きのデータで追加学習させる工程。
「この質問にはこう答えてほしい」というペアデータを用意して、それでモデルを追加学習させる方式です。 RLHF の前段階としてよく行われ、ファインチューニングの基本形にあたります。
関連用語
詳しく見る →
Zero-shot
LLM・テキストゼロショット
例を一つも見せずに、新しいタスクをAIに頼むやり方。
「例を見せずに、いきなり本番タスクをやらせる」プロンプトのやり方です。 今の高性能モデルは Zero-shot でもかなりの精度が出るため、Few-shot を使う場面は減ってきています。
関連用語
詳しく見る →
コンテキストウィンドウ 🔥
LLM・テキストContext Window / コンテキスト長
AIが一度に読める長さ。長いほど多く覚えていられる。
AIが「一度の会話で覚えていられる量」のことです。 2026年現在、GPT-5系で40万トークン、Gemini 2.5系で100万トークン超。長いほど大量の資料を一気に読ませられます。
関連用語
詳しく見る →
コンテキストエンジニアリング 🔥
LLM・テキストContext Engineering
プロンプトエンジニアリングの後継、文脈設計の技術。
単発のプロンプトだけでなく、システムプロンプト・履歴・取得した資料を含めた「文脈全体」をどう組み立てるか、を設計する技術のことです。 2025年以降の主流概念で、エージェント運用ではこちらが鍵になります。
関連用語
詳しく見る →
システムプロンプト
LLM・テキストSystem Prompt
AIの「人格」「役割」を最初に定義する指示文。
「あなたは丁寧な日本語で答えるアシスタントです」「専門用語は避けてください」のように、会話の最初に置く土台になる指示文のことです。 アプリケーションでAIを組み込む時の、設計の核になります。
関連用語
詳しく見る →
トークナイザ
LLM・テキストTokenizer
文章をトークンに分割するプログラム。
文章をモデルが扱えるトークン列に分解する、AI処理の最初のステップを担うプログラムのことです。 BPE(Byte Pair Encoding)が代表的な方式で、日本語は英語より細かく分かれるためトークン消費が増えがちです。
関連用語
詳しく見る →
トークン
LLM・テキストToken
AIが文字を扱う最小単位。料金もここで測る。
LLMは文章をそのままでなく、「トークン」という小さなかたまりに分けて扱います。 日本語ではだいたい 1〜2文字で1トークンくらい。API利用時の料金もこのトークン数で計算されます。
関連用語
詳しく見る →
ハルシネーション 🔥
LLM・テキストHallucination / 幻覚
AIが平然とウソをつく現象。
もっともらしいけど事実と違う情報を、AIが自信満々で答えてしまう現象です。 「存在しない論文を引用してくる」「人物の経歴を捏造する」などが典型例。AIの答えは必ずファクトチェックが必要、と覚えておきましょう。
関連用語
詳しく見る →
プロンプト
LLM・テキストPrompt
AIへの指示文。書き方で答えがガラッと変わる。
AIへの入力文(指示文)のことです。 同じ質問でも、書き方ひとつで答えの精度が大きく変わるので、「プロンプトエンジニアリング」というジャンルが生まれました。
関連用語
詳しく見る →
ロングコンテキスト
LLM・テキストLong Context
100万トークン超の超長文を扱えるモデルの特長。
コンテキストウィンドウが100万トークンを超えるレベルの長さを扱えることを指します。 Gemini 2.5 / Claude(拡張)/ Llama 4 系などが対応。論文1冊・コードベース全体を一気に読ませる用途で活躍します。
関連用語
詳しく見る →
温度(Temperature)
LLM・テキストTemperature
AIの答えのばらつき具合を決めるツマミ。
0に近づくほど「安定した同じような答え」、1に近づくほど「ばらつきのある創造的な答え」になる、出力のランダムさを調整するパラメータです。 ビジネス用途は低め、創作用途は高めにすると相性がいいです。
関連用語
詳しく見る →
推論モデル 🔥
LLM・テキストReasoning Model / Thinking Model
答える前に「考える時間」を持つAI。
答えを出す前に内部で長く考えるよう設計されたモデルのことです。 OpenAI の o1/o3系、Claude の Opus extended thinking、Gemini Thinking などが代表例で、数学・コードに特に強くなります。
関連用語
詳しく見る →
⚙️しくみ・技術
AIが動く仕組みや、技術者がよく使う用語。
Attention(注意機構)
しくみ・技術Self-Attention
文章のどこに注目すべきかを学ぶしくみ。
Transformer のキモになる計算のしくみで、入力された文章の「どの単語が、どの単語と関係しているか」を、AIが自分で学ぶ仕掛けです。 「Attention Is All You Need」という論文タイトルがそのまま業界の合言葉になっています。
関連用語
詳しく見る →
Diffusion Model(拡散モデル)
しくみ・技術拡散モデル
画像生成AIの主流アルゴリズム。
ノイズだらけの画像から、少しずつノイズを取り除いて綺麗な画像を作る、という変わったやり方で画像を生成するモデルです。 Midjourney、Stable Diffusion、DALL-E、Imagen など、ほぼ全ての画像生成AIがこの方式です。
関連用語
詳しく見る →
Embeddings(埋め込みベクトル)
しくみ・技術ベクトル化
言葉や画像を「数字の列」で表す技術。
テキストや画像を、意味の近さを表す高次元の数字の列(ベクトル)に変換することです。 このベクトルを使うと、「意味が似ているもの」を高速に検索できます。RAG の土台にもなっています。
関連用語
詳しく見る →
LoRA
しくみ・技術Low-Rank Adaptation
巨大モデルに「アドオン」を貼って軽く微調整する手法。
巨大モデル本体をいじらず、小さな差分(アダプタ)だけ学習させて、特定用途向けに変身させる手法です。 ファインチューニングのコストを劇的に下げるため、画像生成のキャラ学習や、自社モデル化で大人気。
関連用語
詳しく見る →
Mixture of Experts(MoE)
しくみ・技術MoE / 専門家混合
巨大モデルを「専門家チーム」に分けて軽くする手法。
1つの巨大なモデルではなく、複数の小さな専門家モデルを用意して、入力に応じて使う専門家を切り替える方式です。 GPT-4・Mixtral・DeepSeek V3 などが採用。「全部を毎回使わない」ので推論が速く、安価になります。
関連用語
詳しく見る →
RAG(検索拡張生成) 🔥
しくみ・技術Retrieval-Augmented Generation
外部のデータを検索しながらAIに答えさせる方法。
社内ドキュメントなどの外部データを、まずベクトル検索で引っ張ってきて、それをAIに渡して答えさせる手法です。 AIに最新情報や独自情報を扱わせる定番のやり方で、ハルシネーション対策にもなります。
関連用語
詳しく見る →
Transformer
しくみ・技術トランスフォーマー
現代AIの土台になっているニューラルネット構造。
2017年に Google が発表した、AIの設計図にあたるネットワーク構造です。 「Attention」というしくみで、文章のどこに注目すべきかをうまく扱えるようになり、ChatGPT を含むほぼ全ての現代LLMがこの上に作られています。
関連用語
詳しく見る →
ファインチューニング
しくみ・技術Fine-tuning
既存モデルに追加学習させて自社向けにする。
事前学習済みのモデルに、自分たちのデータで追加学習させて、特定の用途向けに調整することです。 LoRA などの軽量手法を使えば、小さいコストでカスタムモデルが作れます。
関連用語
詳しく見る →
ベクトルDB
しくみ・技術Vector Database / Vector DB
Embeddingsを保存・検索するための専用DB。
Embeddings を大量に保存し、「意味が近いもの」を高速に検索するための専用データベースです。 Pinecone, Weaviate, pgvector などが代表例。RAGには欠かせない部品です。
関連用語
詳しく見る →
マルチモーダル
しくみ・技術Multimodal
文章・画像・音声などを同時に扱えるAI。
テキストだけでなく、画像・音声・動画・コードなど複数の形式(モード)を同時に扱えるAIのことです。 2024年以降、ほぼすべての主要モデルがマルチモーダル対応になりました。
関連用語
詳しく見る →
音声クローン
しくみ・技術Voice Cloning
数秒の声サンプルで本人そっくりの声を作る技術。
わずか数秒の音声サンプルから、その人の声をAIで再現する技術です。 ElevenLabs、OpenAI Voice、xAI Grok Voice などが商用化。便利な反面、詐欺利用の懸念で各社が同意ベースの厳格運用を進めています。
関連用語
詳しく見る →
音声認識(STT)
しくみ・技術Speech-to-Text / ASR
話し声を文字起こしするAI技術。
マイクから入った音声をテキストに変換する技術です。 OpenAI の Whisper が業界標準で、議事録・字幕・通訳など幅広く使われています。
関連用語
詳しく見る →
強化学習
しくみ・技術Reinforcement Learning / RL
ご褒美と罰でAIに行動を学ばせる方式。
「うまくいったら報酬、失敗したらペナルティ」を繰り返してAIに賢い行動を覚えさせる学習方法です。 ゲームAI(AlphaGo)や、最近はAIエージェントの行動学習に活用されています。
関連用語
詳しく見る →
蒸留(Distillation)
しくみ・技術Knowledge Distillation
大きいモデルの知識を小さいモデルに移す。
大きく重い「先生モデル」が出す答えを、小さく軽い「生徒モデル」が真似ることで、小型モデルでも先生に近い性能を引き出す技術です。 スマホで動くLLMの多くが、この蒸留で作られています。
関連用語
詳しく見る →
量子化
しくみ・技術Quantization
モデルを軽くして安いPCでも動かす技術。
モデルの重みを、32ビットから 8ビット・4ビットなどに圧縮して、サイズと計算コストを減らす技術のことです。 精度をほぼ保ったまま、家庭用PCでも巨大モデルが動かせるようになります。
関連用語
詳しく見る →
🤖エージェント・ツール
AIが自分で動いてタスクをこなすしくみ。
Agentic Coding 🔥
エージェント・ツールエージェント開発
AIが自律的にコードを書いて修正していく開発スタイル。
人間が一行ずつコードを書く代わりに、AIに「こういう機能を作って」と頼んで、コード生成・テスト・修正を自走させる開発スタイルです。 Claude Code、Codex、Cursor Composer などが代表例。2025〜2026年の開発トレンド。
関連用語
詳しく見る →
AIエージェント 🔥
エージェント・ツールAI Agent / エージェント
AIが自分で計画立てて手足を動かす存在。
目標を伝えると、AIが自分でステップを考えて、ツールを使って実行までしてくれる存在です。 「コードを書いて、テスト走らせて、PR出して」までを自律的にやるのが理想形で、2025〜2026年の業界の最大の流行り。
関連用語
詳しく見る →
Browser Use 🔥
エージェント・ツールブラウザエージェント
AIがブラウザを直接操作してタスクをこなす。
AIがウェブブラウザを直接動かして、検索・予約・買い物・転記などを代行する機能です。 OpenAI Operator、Anthropic Computer Use、Google Project Mariner などが先行勢。
関連用語
詳しく見る →
Computer Use 🔥
エージェント・ツールコンピュータ操作
AIがPC画面を見て、マウス・キーボードを操る。
Anthropic の Claude が先陣を切った機能で、画面のスクショを見ながらマウスとキーボードを操作してくれる仕組みです。 ブラウザでの予約・転記など、これまで自動化が難しかった作業を吸収しはじめています。
関連用語
詳しく見る →
Function calling
エージェント・ツールTool calling
AIに「この関数使っていいよ」と伝える仕組み。
プログラム側で用意した関数(たとえば「天気を調べる」「DBを検索する」など)を、AIが自分で呼び出せるようにする機能です。 エージェントの基本部品で、今や標準機能。
関連用語
詳しく見る →
MCP(Model Context Protocol) 🔥
エージェント・ツールModel Context Protocol
AIに道具を渡すための共通規格。Anthropicが提唱。
Anthropic が公開した、AIに外部ツールを使わせるためのプロトコル(共通の作法)です。 2025年以降、OpenAI・Google・Microsoft なども採用を表明し、業界標準になりつつあります。
関連用語
詳しく見る →
ReAct
エージェント・ツールReasoning and Acting
「考える→行動する」を交互に繰り返すエージェント手法。
AIに思考と行動を交互に繰り返させることで、複雑なタスクを段階的に解決させるエージェントの基本パターンです。 2022年に提唱され、いまの多くのエージェントフレームワークの土台になっています。
関連用語
詳しく見る →
RLHF
エージェント・ツール人間のフィードバックによる強化学習
人間の好みでAIを「行儀よく」させる学習方法。
人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。
関連用語
詳しく見る →
Tool use
エージェント・ツールツール利用
AIが計算機やブラウザを「自分で」使うこと。
AIが言語生成だけでなく、計算機・検索・コード実行・ブラウザ操作などを自分で呼び出して使うことを指します。 Function calling や MCP がその実装手段です。
関連用語
詳しく見る →
エージェントメモリ
エージェント・ツールAgent Memory
AIが「前回の会話」を覚えておくしくみ。
セッションをまたいで、ユーザーの好みや過去の会話を記憶しておく仕組みです。 ChatGPT Memory、Claude Memory、Gemini Memory などが各社実装中。長期的な関係性を持ったAI体験の鍵になります。
関連用語
詳しく見る →
マルチエージェント 🔥
エージェント・ツールMulti-Agent System
複数のAIが役割分担して協力する構成。
「設計担当」「実装担当」「レビュー担当」のように、複数のAIエージェントが役割を分担し、議論しながらタスクを解く構成のことです。 Anthropic Multi-agent Orchestration、AutoGen、CrewAI などが代表例。
関連用語
詳しく見る →
💼業務・ビジネス
現場でAIを使うときに出てくる契約・運用用語。
API
業務・ビジネスApplication Programming Interface
プログラムからAIを呼ぶための窓口。
ChatGPT などのAIを、Webアプリやスクリプトから直接呼び出すための入り口のことです。 「ChatGPTの画面」ではなく「自社サービスの裏側にChatGPT」を組み込むときは、必ずAPIを使います。
関連用語
詳しく見る →
APIキー
業務・ビジネスAPI Key
APIを叩くときの「身分証」。漏らすと請求が爆発する。
APIを呼び出すときに必要な、長い文字列のパスワードのようなものです。 漏れると勝手に使われて請求が膨らむため、絶対に GitHub などに上げてはいけません。
関連用語
詳しく見る →
EU AI法
業務・ビジネスAI Act
EUのAI規制法。世界のAI規制の雛形に。
2024年に成立した、世界初の包括的AI規制法です。リスクに応じてAIシステムを4段階に分類し、高リスクには厳しい運用義務を課します。 日本企業もEU向けサービスを提供するなら準拠が必要で、各国の規制議論の参照軸になっています。
関連用語
詳しく見る →
LLMOps
業務・ビジネスLLM運用
LLMを安定運用するためのDevOps的な仕組み。
LLMをアプリに組み込んで運用する際に必要な、プロンプト管理・評価・モデル切り替え・コスト監視などの一連のしくみのことです。 DevOpsのLLM版、と思えばOK。
関連用語
詳しく見る →
SaaS(クラウド型AI)
業務・ビジネスSoftware as a Service
ブラウザから月額で使うサービス形態。
ChatGPT、Claude、Gemini のように、ブラウザからログインしてサブスクで使う形のサービス形態です。 導入が早い反面、入力データの扱いを規約でしっかり確認する必要があります。
関連用語
詳しく見る →
オープンウェイト
業務・ビジネスOpen Weight
モデルの中身が公開されてて、自分で動かせる。
学習済みモデルの「重み(パラメータ)」が公開されていて、自分のサーバーで動かせるタイプのAIのことです。 Llama、Mistral、Qwen、DeepSeek などが代表例。完全オープンソースとは違うので、ライセンスは要チェック。
関連用語
詳しく見る →
オンプレ(自社運用)
業務・ビジネスOn-premise
AIを自社のサーバーで動かす運用。
クラウドのAIサービスを使うのではなく、自社のサーバーやPCに直接モデルを置いて動かす運用形態です。 データを外に出したくない大企業や行政で、Llama や Qwen のオープンモデルがよく使われます。
関連用語
詳しく見る →
シャドウAI
業務・ビジネスShadow AI
社員が会社の許可なくAIを業務に使う状態。
IT部門が把握していないまま、社員が個人のChatGPTやClaudeに業務情報を入力してしまう状況のことです。 情報漏洩リスクとして大企業のCISOが頭を抱える問題で、SOCチームが監視ツールを導入する動きが進んでいます。
関連用語
詳しく見る →
トークン課金
業務・ビジネスToken-based pricing
使ったトークン数に応じて課金される従量制。
ほとんどのAI APIは、入力と出力のトークン数に応じて料金がかかります。 例えば「入力 $3 / 100万トークン、出力 $15 / 100万トークン」のような形で、出力のほうが高く設定されることが多いです。
関連用語
詳しく見る →
プロンプト管理
業務・ビジネスPrompt Management
業務で使うプロンプトをチームで一元管理する。
個人がバラバラに作ったプロンプトを、社内で集約・バージョン管理して、誰でも再利用できる状態にする運用のことです。 PromptLayer、Langfuse、Helicone などのツールが普及しています。
関連用語
詳しく見る →
モデルカード
業務・ビジネスModel Card
AIモデルの「成分表」みたいな仕様書。
モデルの学習データ・性能・限界・想定用途・倫理的配慮などをまとめたドキュメントのことです。 Google が提唱して、各社が新モデル公開時に必ず添付するようになりました。業務導入の検討時に必読。
関連用語
詳しく見る →
レートリミット
業務・ビジネスRate Limit
「1分あたり何回まで」というAPIの利用制限。
AIサービスのAPIには、「1分あたりN回」「1日あたりMトークン」のような上限が設定されています。 超えると一時的にブロックされるので、人気サービスの裏側ではリトライ設計が必須です。
関連用語
詳しく見る →
📊評価・ベンチマーク
AIの性能を測るときに使われる物差し。
AIME
評価・ベンチマークAmerican Invitational Math Exam
アメリカ高校数学オリンピックの予選問題。
推論モデルの数学力を測るのによく使われる、アメリカ高校生向けの数学オリンピック予選問題です。 GPT-5・o3・Claude Opus などが満点近くを叩き出し、推論モデル時代の象徴になっています。
関連用語
詳しく見る →
Chatbot Arena
評価・ベンチマークLMSys Arena
人間のブラインドテストで決めるAIランキング。
2つのAIに同じ質問をして、ユーザーがどちらの答えが好きかを投票していくランキングサイトです。 ベンチ数値より「人間の体感」に近いので、各社が気にする指標になっています。
関連用語
詳しく見る →
GPQA
評価・ベンチマークGraduate-Level Google-Proof QA
「ググっても答えが出ない」博士課程レベルの難問集。
物理・化学・生物の博士課程レベルの問題で、ネット検索しても答えが出ないように設計されたベンチマークです。 推論モデルの真価が問われる難所として、各社が点数を競っています。
関連用語
詳しく見る →
HumanEval
評価・ベンチマークOpenAIが作ったコード生成の定番テスト。
Pythonの関数を書かせて、テストが通るかどうかを測る、コード生成の定番ベンチマークです。 今のモデルだとほぼ満点に近く、より難しい SWE-Bench / LiveCodeBench が後継として使われます。
関連用語
詳しく見る →
Humanity's Last Exam(HLE) 🔥
評価・ベンチマーク人類最後の試験
AGI 到達を測るための、人類が出せる最難問集。
数百人の専門家から集めた「これに答えられたらAGIだろう」レベルの問題3000問のベンチマークです。 2025年初頭は数%、夏には数十%、と進化スピードを測る物差しになっています。
関連用語
詳しく見る →
MMLU
評価・ベンチマークMassive Multitask Language Understanding
AIの「総合学力テスト」みたいなベンチ。
57科目の選択問題で、AIの幅広い知識を測る総合ベンチマークです。 ここ数年でほぼ満点に近づいたため、今は MMLU-Pro などの上位版が主流になりつつあります。
関連用語
詳しく見る →
SWE-Bench 🔥
評価・ベンチマークSWE-Bench Verified
実際のGitHubバグをAIが直せるかを測る。
実在するOSSのバグ報告を集めて、AIに直させるベンチマークです。 「コーディング能力」を測る指標として最重要視されていて、Claude / GPT / Gemini の主戦場になっています。
関連用語
詳しく見る →
SWE-Bench Pro
評価・ベンチマークSWE-Benchをさらに難しくした実バグ修正テスト。
SWE-Bench がほぼ飽和してきたため、より難しいバグ・大規模なリポジトリを集めた後継ベンチです。 2026年時点の最強コーディングAIでも60〜70%台で、まだ伸びしろがある領域。
関連用語
詳しく見る →
Terminal-Bench
評価・ベンチマークAIが「ターミナル作業」をどれだけこなせるかを測る。
ファイル操作・Git・パッケージ管理・サーバー設定などのターミナル作業を、AIエージェントがどれだけ自走できるかを測るベンチです。 Claude Code vs Codex の主戦場の一つ。
関連用語
詳しく見る →
ベンチマーク
評価・ベンチマークBenchmark
AIの性能を測るための共通テスト。
AIモデルの性能を比較するために使われる、共通のテスト問題のことです。 MMLU・SWE-Bench・HumanEval などが有名で、各社の新モデル発表時に必ず引き合いに出されます。
関連用語
詳しく見る →
ロングコンテキスト評価
評価・ベンチマークNeedle in a Haystack / MRCR
長文の中の情報を正しく拾えるかのテスト。
「100万トークンの中に隠した1行をAIが拾えるか」というタイプの評価です。 コンテキストウィンドウが伸びた今、見かけのトークン数より「本当に使えるか」を測る指標として重要になっています。
関連用語
詳しく見る →
🛡️安全・倫理
AIをまっとうに使うために知っておきたい話。
AIと著作権
安全・倫理Copyright
学習データと出力物、両面で議論が続く論点。
AIが学習に使ったデータの権利、AIが生成したものの権利、両方で議論が続いています。 日本では学習段階での利用は比較的緩やかですが、出力物がだれかの作品に酷似する場合は別途リスクがあります。
関連用語
詳しく見る →
AIバイアス
安全・倫理Bias
学習データの偏りで答えが偏る問題。
学習データに偏りがあると、AIの答えも偏ってしまう問題のことです。 人種・性別・職業などにまつわるステレオタイプを再生産しないか、運用前に必ず確認すべきポイントです。
関連用語
詳しく見る →
Constitutional AI
安全・倫理憲法AI
AIに「憲法」を与えて自律的に行儀よくさせる手法。
Anthropic が提唱した、AIに「やってはいけないこと」「やるべき価値観」を文書(憲法)として与え、AI自身がそれに沿って自己批判しながら学習する手法です。 Claudeシリーズの土台になっています。
関連用語
詳しく見る →
アライメント
安全・倫理Alignment
AIを人間の価値観に合わせる研究全般。
AIが暴走したり、悪意ある使い方をされたりしないように、人間の意図とAIの行動を一致させる研究のことです。 Anthropic などはこの研究を最重要テーマに据えています。
関連用語
詳しく見る →
ガードレール
安全・倫理Guardrails
AIに「やっていいこと/だめなこと」を強制する仕組み。
AIの入出力を監視して、機密情報の漏洩・差別表現・不適切なコード実行などを自動的にブロックする仕組みです。 NeMo Guardrails、Llama Guard、AWS Bedrock Guardrails などが代表例。
関連用語
詳しく見る →
ジェイルブレイク
安全・倫理Jailbreak / 脱獄
AIの安全装置を巧妙な指示で突破する行為。
「Do Anything Now」のようなプロンプトでAIに本来禁止された出力をさせる行為のことです。 各社が対策を強化していますが、いたちごっこが続いています。業務利用時は社内ガイドラインで明確に禁止しておくべき項目。
関連用語
詳しく見る →
ディープフェイク
安全・倫理Deepfake
AIで作った本物そっくりの偽動画・偽音声。
AIで合成された、実在人物そっくりの映像や音声のことです。 2024年以降、政治・詐欺・SNSなどで悪用が広がり、検知技術と表示義務化の議論が進んでいます。
関連用語
詳しく見る →
プロンプトインジェクション 🔥
安全・倫理Prompt Injection
AIに「裏命令」を仕込む新種の攻撃。
ウェブページや添付ファイルに細工をして、AIエージェントに本来やってはいけない指示を実行させようとする攻撃のことです。 エージェント時代の最大のセキュリティ課題のひとつ。
関連用語
詳しく見る →
該当する用語が見つからなかったよ……