エージェント
RLHFとは?
別名: 人間のフィードバックによる強化学習
人間の好みでAIを「行儀よく」させる学習方法。
⚡ 30秒でわかる
RLHF の主なポイント
- 1 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。
- 2 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。
📖 詳しく
RLHF とは
人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。
ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。
❓ FAQ
よくある質問
- Q. RLHF とは何ですか?
- A. 人間の好みでAIを「行儀よく」させる学習方法。 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。
- Q. RLHF の主な特徴は?
- A. 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。
- Q. RLHF に関連する用語は?
- A. 「アライメント」、「ファインチューニング」などが関連しています。
- Q. RLHF の別名は?
- A. 人間のフィードバックによる強化学習 とも呼ばれます。