Index
言語モデル / Language Model
言語モデル (Language Model; LM) あるいは 確率的言語モデル (Probabilistic Language Model) とは、
マルコフモデル / Markov Model
系列・順序のあるデータに対する考え.
ある時点 での情報は、過去 個分の系列の情報にしか依存しないという考え.
言語モデルにも利用されている.
確率モデル
長さ の単語列を とする.
ここでは、 は 番目の one-hot ベクトルを指す.
- One-Hot Encoding
このとき、単語列 を生成する確率は、以下のように表す.
ただし、文の生成確率 を直接モデル化することは難しく、
言語モデルは文中の各単語の生成確率を、その単語の前に出現した単語 (ベクトル / トークン) が与えられたという条件
の元で、次の単語を予測するモデルを組み合わせ、その組み合わされたモデルを数式として定義する.
ここで、言語モデルにおいて、ある単語の出現確率を計算する際に用いる周囲の単語を文脈 (context) と呼ぶ.
つまり、言語モデルは直前に出現したいくつかの単語を文脈として次の単語の出現確率をモデル化したもの.
応用モデル
N-Gram 言語モデル
ニューラル言語モデル / Neural Language Model
- ニューラル言語モデル / Neural Language Model
Backpack Language Models / 2023
単語毎の埋め込み表現を共通の符号化器でK個の埋め込みベクトルに変換後、
それらを、文脈を入力にしたTransformerが出力する重みの重み付け和を元に次の単語を予測する.
どの単語のどの意味が使われたかを明示的にでき、制御しやすくする.
どの単語のどの意味が使われたかを明示的にでき、制御しやすくする.
Backpack言語モデルは、単語毎の埋め込み表現を共通の符号化器でK個の埋め込みベクトルに変換後、それらを、文脈を入力にしたTransformerが出力する重みの重み付け和を元に次の単語を予測する。どの単語のどの意味が使われたかを明示的にでき、制御しやすくする。https://t.co/RWbGHrpvyY
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) May 30, 2023
言語モデルの評価
言語モデルの評価にはパープレキシティ (Perplexity; PPL)が使われる.
研究
- Meet in the Middle: A New Pre-training Paradigm
- [2023]
- arxiv.org