GPT #まとめ編
- yhayato1320.hatenablog.com

Index

Index
GPT-2 とは
アプローチ
- 学習データ
- Byte Pair Encoding (BPE)
ネットワークアーキテクチャ
学習済みモデル
- gpt2-xl-japanese
参考
- Web サイト

GPT-2 とは

複数のタスク(Multi Task) やドメイン(Multi Domain) で事前学習を大規模に行うことで、タスクやドメインごとに行うファインチューニングを行わない(Zero-Shot Learning)、もしくは少数のデータでのみの学習(Few-Shot Learning) で精度を向上させることを目的とした手法.

アプローチ

考えの根幹となるのは言語モデル.

言語モデル / Language Model
- yhayato1320.hatenablog.com

$n-1$ 個の系列の文章 ${ s_{1},\ \cdots,\ s_{n-1} }$ があったとき、 $n$ 個目の単語を予測する確率モデルは以下のように表現できる.

$p(x)\ =\ \displaystyle \prod_{i=1}^{n} p(s_{n} | s_{1},\ \cdots,\ s_{n-1})$

このように言語モデルを条件付き確率で表現できれば、確率の計算をニューラルネットに行わせば良いと考える.

条件付き確率
- yhayato1320.hatenablog.com

一般的な確率のフレームワークを以下のように表現できる.

$P(output\ |\ input)$

さらに、タスクによって確率の計算方法が異なる(変わる)ことが多いので、条件付確率にタスクも追加する.

$P(output\ |\ input,\ task)$

(タスクの条件による確率器の内容の変更は、アルゴリズムやネットワークアーキテクチャレベルの変更も考えられる.)

学習データ

学習データは、多様なドメインに渡るようにし、大規模なデータセットで構築する.

そこで、Web スクレイピングを利用. 安定した品質のデータの取得のため、ある程度品質が保証されている Web サイトをフィルタリングして、データを取得する.

その結果

4500万のリンクからテキストを取得
データクリーニング後に、40GB / 800万のテキスト
(Wikipedia は削除)

Byte Pair Encoding (BPE)

ニューラル言語モデルへ入力するための処理として、

小文字化
トークン化 (Embedding)
語彙にないトークンへの処理

などがある.

これらの処理をスキップする方法として、単語を UTF-8 bytes の系列(シーケンス)に変換する Byte Pair Encoding (BPE) がある.

ネットワークアーキテクチャ

Transformer の Decoder をベースにしている GPT-1 を踏襲している.

GPT-1
- yhayato1320.hatenablog.com

変更点は、

Attention Layer と FFN Layer の後にあるNormalization をそれらの前に移動. (Pre Normalization)
Pre Normalization を行うと Decoder Layer の最後の出力が FFN Layer になるので、Normalization を加える.
Pre Normalization
- yhayato1320.hatenablog.com
語彙を50257に増やす.
コンテキストサイズを512から1024に増やす.
バッチサイズを64から512に増やす.

学習済みモデル

gpt2-xl-japanese

gpt2-xl-japanese
- huggingface.co
パラメタ数1.5Bのgpt2-XLを学習した話
- zenn.dev

参考

Language Models are Unsupervised Multitask Learners
- [2019 OpenAI] 発表論文
- Abstract
- 1 Introduction
- 2 Approach
  - 2.1 Training Dataset
  - 2.2 Input Representation
  - 2.3 Model
- https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

Web サイト

【論文解説】OpenAI 「GPT-2」を理解する
- data-analytics.fun

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】GPT-2