Index
Reinforcement Learning from Human Feedback / RLHF
人間によるフィードバックに基づいて、LLM を強化学習させる手法.
LLM
Instruct GPT / Chat GPT
テクニック・工夫
ZO-RankSGD / 2023
- Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles
- [2023]
- arxiv.org
画像への応用
- Aligning Text-to-Image Models using Human Feedback
- [2023]
- arxiv.org
研究
- The Capacity for Moral Self-Correction in Large Language Models
- [2023]
- arxiv.org
参考
Illustrating Reinforcement Learning from Human Feedback (RLHF)
RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?