この記事の読者
深層学習・ディープラーニングの手法の1つである「BERT」について知りたい.
キーワード・知ってると理解がしやすい
Index
環境とライブラリ
ライブラリ
- PyTorch (1.10.0)
- Transformers (4.12.5)
- Fugashi (1.1.1)
- ipadic (1.0.0)
Transformers は Huggingface 社が提供しているオープンソースのライブラリで、
BERT をはじめと様々なニューラルネットを用いた言語モデルが実装されている.
また、Transformers では、様々なモデルの事前学習モデルが利用可能になっている.
Transformers に提供されているモデルの中に日本語のモデルもあり、それを使用する.
モデル
東北大学の研究チームで作成された BERT の事前学習モデルを用いる.
このモデルは Wikipedia 日本語記事のデータを用いて学習されている.
このモデルは以下のように呼ばれている.
cl-tohoku/bert-base-japanese-whole-word-masking
実装
二つの処理を実行する.
トークナイザ
トークナイザは、文章をトークンに分割し、BERT に入力できる形に変換する.
トークン化について yhayato1320.hatenablog.com
#02へ