Index
トークン / token
トークン化 とは、文を適当な単位に分割すること.
これを実現するツールをトークナイザ (tokenizer)と呼ぶ.
分割によって得られた文の構成要素を トークン (token)と呼ぶ.
分割方法としては、以下のようなものがある.
- 単語分割 : 単語単位で分割
- 文字分割 : 文字単位で分割
- サブワード分割 : 単語分割後、サブワード単位で分割
アルゴリズムへの入力するための前処理としては、以下の手順で行う.
参考
書籍
Web サイト
日本語の tokenize, lemmatize, romanize の速度比較
ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」