音声認識（STT）とは何ですか？

話し声をAIが聞き取って文字（テキスト）に変換する技術で、Speech-to-Text の頭文字を取ってSTT、またはASR（自動音声認識）とも呼ばれます。スマホの音声入力や会議の議事録、動画の字幕づくりなどに使われ、人が手で文字起こしする作業を自動化できるのが大きな利点です。OpenAI の Whisper など無料で使えるものも登場し、誰でも手軽に試せるようになりました。

音声認識（STT）と音声合成（TTS）は何が違うの？

向きが正反対です。STT（音声認識）は「声→文字」で、話した内容を文字に書き起こします。一方TTS（音声合成）は「文字→声」で、入力した文章をAIが読み上げて音声にします。たとえば会議を文字起こしするのがSTT、カーナビが道案内を読み上げるのがTTS、とイメージすると分かりやすいです。

初心者が音声認識を使うには何から始めればいい？

まずはスマホの音声入力や、お使いの会議ツール・文字起こしアプリに付いている自動文字起こし機能を試すのが手軽です。もう少し本格的に使いたい場合は、OpenAI の Whisper のように無料で公開されているモデルを利用する方法もあります。ただし変換結果には誤りが混じることがあるため、議事録など正確さが必要な場面では必ず人が目を通して直すのが安心です。

音声認識の精度を上げるコツはありますか？

なるべく静かな環境で、マイクに近づいてはっきり話すことが基本で、これだけでも誤変換がぐっと減ります。早口や複数人の同時発話、専門用語や固有名詞は間違えやすいので、重要な部分はゆっくり区切って話すと効果的です。それでも完璧にはならないため、最後に人が確認して修正する前提で使うのが現実的です。

技術

音声認識（STT）とは？

別名: Speech-to-Text / ASR

話し声を文字起こしするAI技術。

⚡ 30秒でわかる

音声認識（STT）の主なポイント

1 音声認識（STT／ASR）は、話し声をAIが聞き取って文字に変換する技術
2 議事録・字幕・音声入力・通話記録など、手作業の文字起こしを自動化する用途で広く使われる
3 OpenAI が無料公開する「Whisper」が代表例で、雑音や多言語にも比較的強い
4 「声→文字」がSTT、「文字→声」は逆向きの音声合成（TTS）で、両者は別の技術
5 変換したテキストをそのままAIに渡して、要約・翻訳・検索につなげる使い方が一般的になっている

📖 詳しく

音声認識（STT）とは

音声認識（STT＝Speech-to-Text）とは、マイクなどから入った話し声を、AIが聞き取って文字（テキスト）に変換する技術です。スマホの音声入力、会議の議事録、動画の字幕、コールセンターの通話記録など、日常のあちこちで使われています。なぜ重要かというと、これまで人が手で文字起こししていた作業を自動化できるからです。1時間の会議を書き起こすのに人手では数時間かかりますが、STTなら数分で下書きができ、検索や要約もしやすくなります。身近な例でいうと、スマホで「OK Google」と話しかけたり、LINEのボイスメッセージが自動で文字に起こされたりするのも、すべてこのSTTの働きです。最近では、変換したテキストをそのままAIに渡して要約・翻訳させる使い方も一般的になりました。代表的な技術として、OpenAI が無料公開している「Whisper」が広く使われており、雑音まじりの音声や多言語にも比較的強いのが特長です。混同しやすいのが逆向きの技術「音声合成（TTS＝Text-to-Speech）」で、こちらは文字を読み上げて音声にするもの。STTは「声→文字」、TTSは「文字→声」と覚えると分かりやすいです。また、声そのものを再現する「音声クローン」とも目的が異なります。

❓ FAQ

よくある質問

Q. 音声認識（STT）とは何ですか？: A. 話し声をAIが聞き取って文字（テキスト）に変換する技術で、Speech-to-Text の頭文字を取ってSTT、またはASR（自動音声認識）とも呼ばれます。スマホの音声入力や会議の議事録、動画の字幕づくりなどに使われ、人が手で文字起こしする作業を自動化できるのが大きな利点です。OpenAI の Whisper など無料で使えるものも登場し、誰でも手軽に試せるようになりました。
Q. 音声認識（STT）と音声合成（TTS）は何が違うの？: A. 向きが正反対です。STT（音声認識）は「声→文字」で、話した内容を文字に書き起こします。一方TTS（音声合成）は「文字→声」で、入力した文章をAIが読み上げて音声にします。たとえば会議を文字起こしするのがSTT、カーナビが道案内を読み上げるのがTTS、とイメージすると分かりやすいです。
Q. 初心者が音声認識を使うには何から始めればいい？: A. まずはスマホの音声入力や、お使いの会議ツール・文字起こしアプリに付いている自動文字起こし機能を試すのが手軽です。もう少し本格的に使いたい場合は、OpenAI の Whisper のように無料で公開されているモデルを利用する方法もあります。ただし変換結果には誤りが混じることがあるため、議事録など正確さが必要な場面では必ず人が目を通して直すのが安心です。
Q. 音声認識の精度を上げるコツはありますか？: A. なるべく静かな環境で、マイクに近づいてはっきり話すことが基本で、これだけでも誤変換がぐっと減ります。早口や複数人の同時発話、専門用語や固有名詞は間違えやすいので、重要な部分はゆっくり区切って話すと効果的です。それでも完璧にはならないため、最後に人が確認して修正する前提で使うのが現実的です。

🔗 関連

あわせて読みたい

「音声認識（STT）」が出てくるニュース

2026/5/6

Hugging Face、ASRリーダーボードに『ベンチマクサー忌避剤』を投入。ズル対策が一段階えぐくなったよ

📎 SOURCES

一次ソース

技術カテゴリの用語

Attention（注意機構） Diffusion Model（拡散モデル） Embeddings（埋め込みベクトル） LoRA Mixture of Experts（MoE） RAG（検索拡張生成） TPS（Tokens Per Second） Transformer TTFT（Time to First Token）ファインチューニングベクトルDB マルチモーダル音声クローン強化学習蒸留（Distillation）量子化

← 前の用語

音声クローン

次の用語 →

強化学習

FOR BEGINNERS

AI初心者ガイド

用語が多くて混乱したら、まず全体像から。AI初心者が「何から始める？」を5分で。

GLOSSARY

AI用語集一覧へ

94語をカテゴリ・検索で引ける。気になる用語をまとめてチェック。