Index

環境とライブラリ

#01 と同様の環境

日本語の BERT の実装をしていく中で、
利用可能な事前学習モデルはどれくらいあるのか、気になったので、まとめてみる.

ちなみに、#01 ~ #03 まで利用していたモデルは、東北大学のチームが日本語 Wikipedia で用いて学習したモデル.

cl-tohoku/bert-base-japanese-whole-word-masking

最後に、#03 で実装したビームサーチを複数のモデルで実行して違いを検証してみる.

Python のライブラリでは、transformers を利用しているので、
transformers で利用できるモデルを中心にまとめる.

また、ひとまず、トークン化するときの、単位は単語単位で学習したものを調査する.