この記事の読者
「コサイン類似度 / Cosine Similarity」について知りたい.
キーワード・知ってると理解がしやすい
- ベクトル
- コサイン
Index
コサイン類似度 / Cosine Similarity とは
ベクトル間の類似度を測定する手法.
また、機械学習でデータ間の類似度の測定に求められることが多い.
- 類似度 #まとめ編
ベクトル間の角度を利用することで、ベクトル間の類似度を計算する.
具体的な計算手順としては、 以下.
- 2 つのベクトル のなす角を とする.
- その のコサインの値 を計算し、これを類似度として利用する.
2 つのベクトルのなす角のコサイン値は以下ように算出する.
はベクトル の大きさ、 はベクトル の大きさなので、 2 つのベクトルの単位ベクトルの内積を計算してことになる.
なぜ、コサインが類似度として利用できるのか
コサインは角度の変化 に対して、以下のように変化する.
つまり、なす角 の値が 0 ( or ) に近いと 1 に近くなり、
に 近いと -1 に近くなる性質を利用して、
2 つのベクトルが似ている (= なす角が0に近い、近い、同じ方向を向いている)ときは、1 に近き、
似ていない(= なす角が に近い、遠い、逆の方向を向いている)ときは、
-1 に近くような値が算出することができる.
距離と類似度の計測方法
ベクトル間の距離を測定する方法はいくつかある.
また、ベクトル間の類似度を測定する方法もいくかある.
- コサイン類似度
- ピアソンの相関係数
参考
- クラスター分析の手法①(概要)