オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】強化学習 / Reinforcement Learning

Index

Reinforcement Learning

Reinforcement Learning を用いた LLM の改善.

Reinforcement Learning from Human Feedback / RLHF

人間によるフィードバックに基づいて、LLM を強化学習させる手法.

アルゴリズム

Interactive Textual Environment/ BabyAI-Text / 2023



Directional Stimulus Prompting / DSP / 2023



ライブラリ

TRL

研究

Reward Design with Language Models

参考