オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】強化学習 / Reinforcement Learning

Index

Index
Reinforcement Learning
Reinforcement Learning from Human Feedback / RLHF
アルゴリズム
- Interactive Textual Environment/ BabyAI-Text / 2023
- Directional Stimulus Prompting / DSP / 2023
ライブラリ
- TRL
研究
- Reward Design with Language Models
参考

Reinforcement Learning

Reinforcement Learning を用いた LLM の改善.

Reinforcement Learning from Human Feedback / RLHF

人間によるフィードバックに基づいて、LLM を強化学習させる手法.

Reinforcement Learning from Human Feedback / RLHF
- yhayato1320.hatenablog.com

アルゴリズム

Interactive Textual Environment/ BabyAI-Text / 2023

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
- [2023]
- arxiv.org

Directional Stimulus Prompting / DSP / 2023

Directional Stimulus Prompting / DSP
- yhayato1320.hatenablog.com

ライブラリ

TRL

TRL - 強化学習によるLLMの学習のためのライブラリ
- note.com

研究

Reward Design with Language Models

Reward Design with Language Models
- [2023]
- arxiv.org
- github.com

参考

大規模言語モデルのための強化学習
- note.com