オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】アルゴリズム #まとめ編 #01

Index

自然言語処理におけるアルゴリズム

機械学習を用いる手法を記す.




注釈付きコーパスが構築され、整理された自然言語の問題は、 分類問題等としても扱うことができる.

注釈付きコーパスを教示データとして、機械学習の手法を適用することができる.

例えば、英語の品詞のタグ付けのタスクでは、 各単語の品詞を選ぶという分類問題である.






基本的に、どのアルゴリズムも、言語モデルを前提にしている.

ベイズ識別 / Naive Bayes Classifier

上の「英語の品詞付与」のタスクに、ベイズ識別 / Naive Bayes Classifier を適用する場合、

「対象とする単語そのもの」、「その 1 文字目が大文字かどうか」、「前後にどのような単語があるか」


などの情報を用いて、品詞の確率を予測する.



隠れマルコフモデル / Hidden Markov Model / HMM

観測されない隠れた状態があり、 その隠れた状態間で、ある確率の遷移がおこり、 遷移した各状態からさらに、ある確率で出力されると考えるモデル.

上の「英語の品詞付与」のタスクに、HMM でモデル化することができる.

すなわち、隠れ状態が品詞に相当し、 各状態 (品詞) から、具体的な単語が出力されると考える.

条件付き確率場 / Conditional Random Field / CRF

DeepLearning



参考