Index

Index
前処理
ライブラリ・API
参考
- 書籍
- Web サイト

前処理

自然言語処理における前処理は、5 つの処理に分けることができる.

自然言語処理 #まとめ編
- yhayato1320.hatenablog.com
クリーニング処理
単語分割
- 形態素解析
- トークン化
正規化
ストップワード除去
ベクトル表現 (特徴量抽出)
- one-hot 表現
- 分散表現

クリーニング処理

テキスト内に含まれるノイズを除去する.

github.com
- 日本語のテキストクリーニング

単語分割

日本語のように単語の区切りが明らかでない言語に対して、行われるのが単語の分割処理.

自然言語処理では、単語レベルでデータ扱うことが多いため、単語ごとに分解する.

分割では、主に形態素解析を用いて行う.

形態素解析

形態素解析
- yhayato1320.hatenablog.com

トークン化

トークン化 とは、文を適当な単位に分割すること.

これを実現するツールをトークナイザ (tokenizer)と呼ぶ.

分割によって得られた文の構成要素を トークン (token)と呼ぶ.

トークン / Token
- yhayato1320.hatenablog.com

単語の正規化

「単語の文字種の統一」、「つづりや表記揺れの吸収」等の単語を置き換える処理を行う.

ストップワードの除去

ストップワードというのは、自然言語処理を行う際に、一般的で役に立たない等の理由で、 解析の対象外とする単語のこと.

ベクトル表現

文字列である単語をベクトルに変換する処理.

one-hot 表現

ある要素のみが 1 で、その他の要素が 0 であるような表現.

One-Hot Encoding
- yhayato1320.hatenablog.com

分散表現

自然言語処理の問題を解くニューラルネットワークのモデル(ニューラル言語モデル)を利用して、文章から直接、特徴量を自動的に行えるようにする.

ニューラル言語モデルの特徴の一つは、文章や単語を「密なベクトル」に変換できるということ.

文章や単語を密なベクトルとして表現したもの 分散表現と呼ぶ.

分散表現
- yhayato1320.hatenablog.com

ライブラリ・API

github.com
- 日本語テキストの前処理

参考

書籍

自然言語処理 (放送大学教材)
- 3 系列の解析 (1)
  - 3.2 日本語文の形態素解析
- 自然言語処理〔改訂版〕 (放送大学教材)
  - 作者:禎夫, 黒橋
  - 放送大学教育振興会
  Amazon

Web サイト

自然言語処理における前処理の種類とその威力
- qiita.com
Python3×日本語：自然言語処理の前処理まとめ
- qiita.com

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】前処理 #まとめ編