音声解析
- yhayato1320.hatenablog.com

Index

Index
DP (Dynamic Programming) マッチング
テンプレートマッチング
- 時間的ゆらぎ
- 音声アライメント
アルゴリズム
- 最短経路問題
- 動的計画法
Dynamic Time Warping / DTW
参考
- 書籍

DP (Dynamic Programming) マッチング

動的計画法を用いた、音声フレーム間のマッチングを行うことで、音声同士のアライメントを達成する手法.

テンプレートマッチング

音声認識を始め、パターン認識全般において、最も初歩的な方法として、テンプレートマッチがある.

音声のテンプレートマッチングを考えたとき、近さの定義として、MFCC特徴量におけるユーグリッド距離などが考えられる.

ケプストラム特徴量
- MFCC
- yhayato1320.hatenablog.com
ユーグリッド距離
- yhayato1320.hatenablog.com

しかし、MCFF は、音声の短時間分析から得られたもので、音声全体のうち、ある 1 フレーム同士の距離しか測れない.

分析区間・音声フレーム
- yhayato1320.hatenablog.com

時間的ゆらぎ

距離の計算を、フレームごとに行えばよいという考えもあるが、単純なフレームごとの計算では音声同士の距離を測ることができない.

なぜなら、比べる音声は、多くの場合、同じ表現でも、長さが異なるからである.

また、音声は、途中途中でもスピードが変動する.

これを「時間的揺らぎ」と呼ばれる.

音声アライメント

音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.

この対応関係をアライメントと呼ぶ.

アルゴリズム

DP マッチングは、アライメントを推定しながら、距離を計算する方法.

最短経路問題

アライメントを解く問題を、フレーム同士の距離をコストとして、コストが最小になるように、 最短経路問題としてみなることができる.

動的計画法

動的計画法 / Dynamic Programming は、最短経路問題を解く時に使われるアルゴリズム.

動的計画法 / Dynamic Programming
- yhayato1320.hatenablog.com

最終的には、ゴールへの最短経路と累積コストがわかる.

距離行列

$dist^{\ p,\ q} (n,\ m)\ =\ \displaystyle \sqrt{\displaystyle \sum_{d=0}^{D-1} (f^{p}(n,\ d)\ -\ f^{q}(m,\ d))^{2}}$

累積コストは、比較する音声フレーム数が多いほど大きくなる傾向がある.

そのため、累積コストを音声の総フレーム数で割ることで、フレーム数の影響を消す. (正規化処理)

Dynamic Time Warping / DTW

「時間的ゆらぎ」を吸収するように、音声を時間方向に伸縮させる処理のことを Dynamic Time Warping / DTW とも呼ぶ.

これにより、得られる距離のことを DTW 距離と呼ぶ.

参考

Two-level DP-matching--A dynamic programming-based pattern matching algorithm for connected word recognition
- [1978]
- https://ieeexplore.ieee.org/document/1163310

書籍

音声認識
- 3 音声認識とは
  - 3.2 DP マッチング
- 音声認識 (機械学習プロフェッショナルシリーズ)
  - 作者:篠田浩一
  - 講談社
  Amazon
Python で学ぶ音声認識
- 4 音声認識の初歩 - DP マッチング -
  - 4.1 音声認識につきまとう、アライメント問題
  - 4.2 DP マッチング
  - 4.3 DP マッチングを実装してみよう
- Pythonで学ぶ音声認識機械学習実践シリーズ
  - 作者:高島遼一
  - インプレス
  Amazon

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】DP マッチング / DTW