オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】フィルタバンク #アルゴリズム編

Index

フィルタバンク / フィルタバンク分析

音声解析における特徴量抽出のひとつ.

目的

振幅スペクトルの次元を削減する方法の一つ.

音声認識においては、細かい周波数分の解能は必要ないため、 隣接した周波数成分をまとめて分散を小さくすることが目的.

処理内容

一定の範囲ごとに、個別の周波数の値を集約 (グループ化) する処理.

そうすることで、周波数成分の数を減らすことができる.

例として、8000 Hz までの成分を持つ振幅スペクトルに対して、 1000 Hz 周辺、2000 Hz 周辺、、、7000 Hz 周辺の計 7 種類の範囲ごとに集約する場合などが考えられる.

そうして得られた結果をフィルタバンク特徴量という.

計算方法

元の振幅スペクトルの次元数、すなわち周波数成分の数を  K とする.

サンプリング周波数を  F_{s} とする.

振幅スペクトル  |y(k)| の次元  k に対応する周波数は、

 freq (k)\ =\ \displaystyle \frac{k F_{s}}{2K}

周波数の範囲

フィルタバンク分析を行う際、分析する周波数の範囲を設定する.

これは簡易的なバンドバスフィルタを実施していることに相当している.

メルフィルタバンク

フィルタバンク分析により、次元数の大きい振幅スペクトルが、次元数が小さいフィルタバンク特徴量に集約された.

(人間の聴覚は高周波・高音になるにつれ、分解能が低くなる・聞き取れなくなるという) 人間の聴覚特性に基づいて、情報を集約する方法.

この特性に従えば、低周波数帯域では、細かい単位で集約した方がよく、 高周波数帯域では、粗い単位で集約した方がよい.

上で述べた、周波数を等分したフィルタバンクを、メルフィルタバンクと区別して、線形フィルタバンクと呼ぶ.

メル尺度

人間の聴覚特性を反映した音の高さの尺度としてメル尺度がある.

対数メルフィルタバンク

メルフィルタバンク特徴量の対数を計算した、対するメルフィルタバンク特徴量は、 FBANKとも呼ばれる.

実装

参考