Index
言語モデル / Language Model
言語モデル (Language Model; LM) あるいは 確率的言語モデル (Probabilistic Language Model) とは、
- 言語モデル / Language Model
マルコフモデル / Markov Model
系列・順序のあるデータに対する考え.
ある時点 での情報は、過去 個分の系列の情報にしか依存しないという考え.
言語モデルにも利用されている.
確率モデル
ここでは、 は 番目の one-hot ベクトルを指す.
- One-Hot Encoding
ただし、文の生成確率 を直接モデル化することは難しく、
言語モデルは文中の各単語の生成確率を、その単語の前に出現した単語 (ベクトル / トークン) が与えられたという条件
の元で、次の単語を予測するモデルを組み合わせ、その組み合わされたモデルを数式として定義する.
つまり、言語モデルは直前に出現したいくつかの単語を文脈として次の単語の出現確率をモデル化したもの.
ニューラル言語モデル / Neural Language Model
言語モデルは、ニューラルネットを用いる方法を除くと、依存する文脈長を固定した N グラム / N-Gram がもっとも多く用いられてきた.
これに対して、ニューラルネットによる言語モデルが、徐々に使われるようになった.
ニューラル言語モデルの構築
ニューラル言語モデルは以下の三つで構成されている.
- 入力層
- 中間層
- 出力層
入力層
入力がone-hot ベクトルでないような場合(トークンのようなID)、
意味のある入力とするために密なベクトル表現に変換する必要がある.
この変換を行う層は、畳み込み層 (Embedding Layer)と呼ばれる.
また、変換されたベクトルは分散表現、あるいは埋め込み表現 (Embedding) と呼ばれる.
中間層
モデルごとに様々
出力層
語彙中の 個の選択肢の中から現れるトークンを予測する問題は、Nクラス分類問題と解釈できるので、 次元ベクトルを出力する.
ニューラル言語モデルの種類
順伝播型ニューラル言語モデル
順伝播型ニューラル言語モデルでは、前 単語だけを入力として、 番目の単語の出現確率をモデル化する.
再帰ニューラル言語モデル
再帰ニューラルネットは文脈長を固定することなく可変長入力を自然に扱うことができるため、
言語モデルのように系列データをモデル化するのに適している.