技術
TTFT(Time to First Token)とは?
別名: 最初のトークンまでの時間 / 初回応答遅延
質問を送ってから AI が「最初の1文字」を返すまでの時間。短いほど『反応が良い』と感じる。
⚡ 30秒でわかる
TTFT(Time to First Token) の主なポイント
- 1 「質問 → 最初の文字」までの所要時間(ミリ秒)
- 2 0.3〜2.0 秒が一般的、0.5 秒以下なら「速い」体感
- 3 推論モデル(o1 / Claude Extended Thinking)は数秒〜数十秒(考える時間)
- 4 サーバ立地・モデルサイズ・入力長で変動
- 5 体感速度を支配する、TPS よりも UX に効く指標
📖 詳しく
TTFT(Time to First Token) とは
TTFT(Time to First Token)は、ユーザーが質問を送ってから AI モデルが最初のトークンを生成するまでの時間です。
単位はミリ秒(ms)または秒。一般的に 0.3〜2.0 秒の範囲。
人間は「動き出すまで」を体感速度として記憶するため、TTFT が短いとモデルが「速い」「賢い」と感じます。
Streaming(逐次表示)対応のチャット UI では TTFT がそのまま体感品質に直結します。
逆に「最終回答までの総時間」は TTFT + (出力長 ÷ TPS) で決まります。
❓ FAQ
よくある質問
- Q. TTFT が長いとどんな問題がある?
- A. ユーザーが『動かないな』とフラストレーションを感じます。チャット用途では 1 秒を超えると体感が悪くなり、 コールセンター系のリアルタイム応用では 500 ms 以下が要件になることが多い。
- Q. 推論モデルの TTFT はなぜ長い?
- A. o1・Claude Extended Thinking・Gemini Deep Think などの『推論モデル』は、 答える前に内部で長く考えるため TTFT が数秒〜数十秒に伸びます。 その代わり最終回答の精度が大幅に向上するトレードオフです。
- Q. TTFT を改善する方法は?
- A. Edge にデプロイされた API(Cerebras・Groq など)を選ぶ、 プロンプトキャッシュを活用する、入力プロンプトを短くする、軽量モデルに切り替える、などが代表的です。