オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】トークン / Token

Index

トークン / token

トークン化 とは、文を適当な単位に分割すること.

これを実現するツールをトークナイザ (tokenizer)と呼ぶ.

分割によって得られた文の構成要素を トークン (token)と呼ぶ.

分割方法としては、以下のようなものがある.

  • 単語分割 : 単語単位で分割
  • 文字分割 : 文字単位で分割
  • サブワード分割 : 単語分割後、サブワード単位で分割

アルゴリズムへの入力するための前処理としては、以下の手順で行う.

  1. 事前に適当な方法で入力として扱いたいトークンの集合 (語彙) を作成し、これに含まれる各トークンに対して順番にIDを割り当てる.
  2. 渡されたトークンを語彙に従い ID に変換する.

参考

書籍

Web サイト

  • 日本語の tokenize, lemmatize, romanize の速度比較

  • ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」