Index
DP (Dynamic Programming) マッチング
動的計画法を用いた、音声フレーム間のマッチングを行うことで、 音声同士のアライメントを達成する手法.
テンプレートマッチング
音声認識を始め、パターン認識全般において、最も初歩的な方法として、テンプレートマッチがある.
音声のテンプレートマッチングを考えたとき、近さの定義として、MFCC特徴量におけるユーグリッド距離などが考えられる.
ケプストラム特徴量
ユーグリッド距離
しかし、MCFF は、音声の短時間分析から得られたもので、
音声全体のうち、ある 1 フレーム同士の距離しか測れない.
- 分析区間・音声フレーム
時間的ゆらぎ
距離の計算を、フレームごとに行えばよいという考えもあるが、
単純なフレームごとの計算では音声同士の距離を測ることができない.
なぜなら、比べる音声は、多くの場合、同じ表現でも、長さが異なるからである.
また、音声は、途中途中でもスピードが変動する.
これを「時間的揺らぎ」と呼ばれる.
音声アライメント
音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.
この対応関係をアライメントと呼ぶ.
アルゴリズム
DP マッチングは、アライメントを推定しながら、距離を計算する方法.
最短経路問題
アライメントを解く問題を、フレーム同士の距離をコストとして、コストが最小になるように、 最短経路問題としてみなることができる.
動的計画法
動的計画法 / Dynamic Programming は、最短経路問題を解く時に使われるアルゴリズム.
- 動的計画法 / Dynamic Programming
最終的には、ゴールへの最短経路と累積コストがわかる.
累積コストは、比較する音声フレーム数が多いほど大きくなる傾向がある.
そのため、累積コストを音声の総フレーム数で割ることで、フレーム数の影響を消す. (正規化処理)
Dynamic Time Warping / DTW
「時間的ゆらぎ」を吸収するように、音声を時間方向に伸縮させる処理のことを Dynamic Time Warping / DTW とも呼ぶ.
これにより、得られる距離のことを DTW 距離と呼ぶ.
参考
- Two-level DP-matching--A dynamic programming-based pattern matching algorithm for connected word recognition