こんな方におすすめ

深層学習・ディープラーニングでも必要な「Word2Vec」の基本的な内容について知りたい。

キーワード・知ってると理解がしやすい

ニューラルネットワーク
分散表現
コンテキスト / 文脈
事後確率
ニューラルネットワーク
- yhayato1320.hatenablog.com
分散表現
- yhayato1320.hatenablog.com
事後確率
- yhayato1320.hatenablog.com

Index

Index
word2vec
単語の分散表現
- 分布仮説
- 「カウントベース」と「推論ベース」
推論ベース
ニューラルネットにおける単語の処理方法
word2vec のモデル
- CBOW モデル
- skip-gram モデル
分散表現としての利用
問題点
参考

word2vec

2013 年 Mikolov らによって提案された手法.

単語 (Word) をベクトル (Vector) として表現、変換するための手法の１つ.

Word To Vector

単語に対して、文脈非依存の分散表現を学習するモデル.

単語に文脈非依存の分散表現を与えることを、単語埋め込み (Word Embedding)という.

単語の分散表現

単語を固定長のベクトルで表現することを「単語の分散表現」(Word Embedding) と呼ぶ.

word2vec も単語の分散表現を取得する手法の１つ.

分布仮説

「単語の意味は周囲の単語によって形成される」という前提・アイディア・考え.

「カウントベース」と「推論ベース」

ここでは、カウントベースについては言及しませんが、自然言語処理において、単語の分散表現を取得する手法としては、大きく分けて２つある.

１つは「カウントベース」と言われる手法で、１つは「推論ベース」と言われる手法.

word2vec は、「推論ベース」に含まれる手法.

推論ベース

推論ベースという名称なので、この手法は、 ある「入力」から何かを「出力=推論結果」するような形式をとる.

どんな入力からどんな出力を推定するモデルなのかがポイントになる.

ニューラルネットにおける単語の処理方法

ニューラルネットで単語を処理するには、それを「固定長のベクトル」に変換する必要がある.

そのための方法のひとつは、単語を one-hot 表現 / ベクトルへの変換する.

One-Hot Encoding
- yhayato1320.hatenablog.com

word2vec のモデル

word2vec で使用されるモデルは、ニューラルネットワーク (NN) を用いられることがスタンダードで、有名なモデルは２つある.

CBOW モデル
skip-gram モデル

２つのモデルを紹介.

CBOW モデル

Continuous Bag-of-Words (CBOW) は、「コンテキスト」から「ターゲット」を推測するNNモデル. (ターゲットは文章中の一単語、その周囲の単語がコンテキスト)

CBOW モデルへの入力は、コンテキストの one-hot ベクトル集合で、出力は単語の予測スコア.

以下の図のようなイメージ.

ここでは、コンテキストは予測する単語(ターゲット)の前後をコンテキストとしているため、2つの入力があるような図に見える.

しかし、入力が複数ある場合は、入力を複数にする.

入力層から中間層への変換に利用している重み $W_{in}$ が分散表現となる.

$W_{in}$ は (語彙の数) x (変換後のベクトルの次元数) となり、この分散表現を利用すれば、語彙に含まれる単語 one-hot ベクトルが変換したい次元のベクトルに変換できることがわかる.

事後確率を利用して、確率モデルとして考えると以下のようになる.

CBOW の確率モデル

$P(w_{t} | w_{t-1}, w_{t+1})$

skip-gram モデル

skip-gram モデルは、CBOW モデルとは逆で、「ターゲット」から「コンテキスト」を推測するNNモデル. つまり、ある単語(ターゲット)から周囲の単語(例えば前後の単語など = コンテキスト)を予測するモデル.

入力は、ターゲットとなる単語の one-hot ベクトルで、出力は、コンテキストとなる複数の単語の one-hot ベクトルの集合となる.

CBOW と同様、コンテキストは予測する単語(ターゲット)の前後をコンテキストとしているため、2つの出力があるような図に見えるが
出力が複数ある場合は、出力を複数にする.

事後確率を利用して、確率モデルとして考えると以下のようになる.

skip-gram の確率モデル

$P(w_{t-1}, w_{t+1} | w_{t})$

分散表現としての利用

二つのモデルとも目的は、単語の分散表現を取得すること.

では、上のモデルで学習を行い、パラメータ (上図での W_in と W_out)が最適化されたとして、どのように分散表現と利用するのか？

それは、、、W_in (または W_out と両方)を分散表現のベクトルして利用する.

問題点

Word2Vec の「各単語に対して一意に分散表現を与える」という性質は、多義語を扱う際に問題になる.

彼は舞台の上手に立った。
彼は料理が上手だ。

上の二つの文章では異なる意味の「上手」が使われている. しかし、Word2Vec では、「上手」という単語に与えれられる分散表現は一意に定まるため、このような「文脈に応じた意味の変化」を扱うことができない.

また、単語の分散表現を利用して、文章をベクトルで表現することを考える.

その場合、文中の単語の分散表現の(重み付き)平均を利用することがあるが、そうなると、文章の語順が考慮されないことになる.

ジョンはボブに本を貸した。
ボブはジョンに本を貸した。

上の場合、各単語を分散表を利用してベクトル化した後、(同じ重みで)平均をとり、文章ベクトルを作成したとき、同じ値になってしまう.

そこで、ELMo のような文脈化単語埋め込み (Contextualized Word Embedding)が利用される.

参考

ゼロから作るDeep Learning 2
- 2 自然言語と単語の分散表現
  - 2.3.2 単語の分散表現
  - 2.3.3 分布仮説
- 3 word2vec
  - 3.1 推論ベースの手法とニューラルネット
  - 3.1.2 推論ベースの手法の概要
  - 3.2.1 CBOW モデルの推論処理
  - 3.5.2 skip-gram モデル
- ゼロから作るDeep Learning ❷ ―自然言語処理編
  - 作者:斎藤康毅
  - オライリージャパン
  Amazon
BERTによる自然言語処理入門
- 2.3 Word2Vec
- BERTによる自然言語処理入門 ―Transformersを使った実践プログラミング―
  - 作者:近江崇宏,金田健太郎,森長誠,江間見亜利
  - オーム社
  Amazon

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】Word2Vec