オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】分散表現 #まとめ編

Index

機械学習における自然言語処理

機械学習を用いて自然言語処理を解く時の流れは、以下.

  1. 文章からタスクを解くのに有用な特徴量を抽出する.
  2. 抽出した特徴をモデルに入力し、問題を解く

文章は単なる記号の列ではなく、意味を内在している.

文章が持つ意味を考慮して、そこから特徴量を行う方法を人間の手で設計するのは困難.

単語の頻出頻度などをルールベースの特徴量として抽出する方法はあるのだが、



そこで、自然言語処理の問題を解くニューラルネットワークのモデル(ニューラル言語モデル)を利用して、 文章から直接、特徴量を自動的に行えるようにする.

ニューラル言語モデル

ニューラル言語モデルの特徴の一つは、文章や単語を「密なベクトル」に変換できるということ.

文章や単語を密なベクトルとして表現したもの 分散表現と呼ぶ.

分散表現

ニューラル言語モデルから得られる分散表現はなんらかの形で単語や文章の意味を反映していると考える. (そのようにモデルを設計する.)

そのため、分散表現はデータの有用な特徴量として用いることができる.

また、ベクトルとして扱うことができるため、「分類問題」や「類似度計算」などの ベクトル空間での定量的な評価を利用した問題を解くことができる.

手法

参考