オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Alignment / 協調性

Index

Alignment / 協調性

LLM は、様々なタスクに適応する能力を有している一方、生成される文章の品質や正確さは最適とは言えない.

そこで、LLM の「Alignment / 協調性」という概念がある.

ユーザの指示を汲み取って適切な返答をするだけではなく、「社会通年に反しない」のような要求も含まれる.

Instruct GPT

Instruct GPT は、GPT-3 をベースにしたモデル.

以下のように学習される.

  1. プロンプトと望ましい出力のペアを人手で作る.
  2. 上の「望ましい出力」を教師データとして、GPT-3 をファインチューニング
  3. プロンプトを GPT-3 に入れて複数の出力をサンプルし、人手で好ましい順に序列を与える
  4. 上の「好ましい順の序列」を教師データとして。報酬モデルを訓練する
  5. 上の「報酬モデル」を使って、「ファインチューニングした GPT-3」 を強化学習で学習する

参考