ai-garage
エージェント

RLHFとは?

別名: 人間のフィードバックによる強化学習

人間の好みでAIを「行儀よく」させる学習方法。

⚡ 30秒でわかる

RLHF の主なポイント

  • 1 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。
  • 2 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。

📖 詳しく

RLHF とは

人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。

❓ FAQ

よくある質問

Q. RLHF とは何ですか?
A. 人間の好みでAIを「行儀よく」させる学習方法。 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。
Q. RLHF の主な特徴は?
A. 人間がAIの答えに「こっちが良い」と順位をつけて、その判定を使ってAIを再学習させる手法です。 ChatGPTが「便利で礼儀正しい」答えを返すようになったのは、ほぼこの工程のおかげです。
Q. RLHF に関連する用語は?
A. 「アライメント」、「ファインチューニング」などが関連しています。
Q. RLHF の別名は?
A. 人間のフィードバックによる強化学習 とも呼ばれます。

🔗 関連

あわせて読みたい

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →