オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】形態素解析 / Morphological Analysis

Index

前置き

語 / word

言語における意味の基本単位は、語 / word である.

文の中の「語の区切り」、「品詞」、「活用」などを明らかにすること、すなわち 語の系列の解析自然言語処理の第一歩である.

形態素 / Morpheme

一般に言語の意味の最小単位を形態素とよび、 は、一つ以上の形態素から構成されていると考える.

英語では、語を構成する形態素は大きく語幹 (Stem)接辞 (Affix) に分類される.

Bird などは、1 形態素 (語幹) で 1 語であり、Playing (Play - ing) などは、2 形態素で 1 語となる.

形態素解析 / Morphological Analysis

「語の区切り」、「品詞」、「活用」などを求める処理を形態素解析とよぶ.

日本語の形態素解析

日本語の形態素解析では、「接頭辞」、「接尾辞」も便宜的にの一種であるとし、 語を最小単位として扱うことが一般的である.

参考