オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】DP マッチング / DTW

Index

DP (Dynamic Programming) マッチング

動的計画法を用いた、音声フレーム間のマッチングを行うことで、 音声同士のアライメントを達成する手法.

テンプレートマッチング

音声認識を始め、パターン認識全般において、最も初歩的な方法として、テンプレートマッチがある.

音声のテンプレートマッチングを考えたとき、近さの定義として、MFCC特徴量におけるユーグリッド距離などが考えられる.

しかし、MCFF は、音声の短時間分析から得られたもので、 音声全体のうち、ある 1 フレーム同士の距離しか測れない.

時間的ゆらぎ

距離の計算を、フレームごとに行えばよいという考えもあるが、 単純なフレームごとの計算では音声同士の距離を測ることができない.

なぜなら、比べる音声は、多くの場合、同じ表現でも、長さが異なるからである.

また、音声は、途中途中でもスピードが変動する.

これを「時間的揺らぎ」と呼ばれる.

音声アライメント

音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.

この対応関係をアライメントと呼ぶ.

アルゴリズム

DP マッチングは、アライメントを推定しながら、距離を計算する方法.

最短経路問題

アライメントを解く問題を、フレーム同士の距離をコストとして、コストが最小になるように、 最短経路問題としてみなることができる.

動的計画法

動的計画法 / Dynamic Programming は、最短経路問題を解く時に使われるアルゴリズム.

最終的には、ゴールへの最短経路と累積コストがわかる.

距離行列

 dist^{\ p,\ q} (n,\ m)\ =\ \displaystyle \sqrt{\displaystyle \sum_{d=0}^{D-1} (f^{p}(n,\ d)\ -\ f^{q}(m,\ d))^{2}}



累積コストは、比較する音声フレーム数が多いほど大きくなる傾向がある.

そのため、累積コストを音声の総フレーム数で割ることで、フレーム数の影響を消す. (正規化処理)

Dynamic Time Warping / DTW

「時間的ゆらぎ」を吸収するように、音声を時間方向に伸縮させる処理のことを Dynamic Time Warping / DTW とも呼ぶ.

これにより、得られる距離のことを DTW 距離と呼ぶ.

参考

書籍