オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】分析区間・音声フレーム

Index

音声フレーム

音声解析における前処理のひとつ.

時系列の信号の解析を行う場合、一般に、AD 変換された波形を入力とし、一定の時間間隔で、特徴量を抽出する.

その際、間隔ごとに分析される対象を 音声フレーム (Speech Frame) ・分析区間と呼び、 音声フレームの間隔を フレーム周期 (Frame Period)と呼ぶ.

オーバーラップ

あるフレームの時間帯とその次のフレームの時間帯は、ある程度被るように分析する.

この被りのことをオーバーラップと呼ぶ.

フレームサイズ

フレームの幅のことをフレームサイズ・フレーム長と呼ぶ.

フレーム周期

フレームの間隔のことをフレームシフト・フレーム周期・フレーム間隔と呼ぶ.

フレーム周期の長さは、短すぎると、特徴量が多くなり、計算量が多くなる.

長すぎると音声の動的な特徴を捉えることができない.

一般に音声の音素の長さは 30 ms 以上.

音素の音響的特徴は前後の音素にも左右されるため、10 ms 程度をフレーム周期としてとるのが良い.

分析窓・窓関数

10 ms ごとの音声フレームから特徴量を抽出することを考える.

このとき、音声フレームの両端が不連続な波形は、そのまま周波数分析をすると高周波に雑音・ノイズがのってしまう.

そこで、波形に対し、この時刻を中心に両端が減衰するように分析窓をかける.

ノイズが発生する原因

フーリエ変換は、分析区間を 1 周期分とみなす.

つまり、分析区間の波形がその前後に連続する (最後のデータ点は、最初のデータ点と同じである) と解釈して変換するため、 本来は分析区間の始端と終端が一致している必要がある.

ハミング窓 (Hamming Window) とハニング窓 (Hanning Window)

分析窓としては、ハミング窓 (Hamming Window) とハニング窓 (Hanning Window) を使う場合がある.

参考