Index
短時間フーリエ分析
音声解析における特徴量抽出のひとつ.
音声フレームに対して、スペクトル解析を行う.
- 音声フレーム
より具体的には、各音声フレームの信号は定常であると仮定し、
それに対して高域強調を施した時系列信号に対して、フーリエ解析を行い、周波数成分を求める.
このような、信号に対し、窓関数をずらしながらかけて行うフーリエ解析のことを特に、短時間フーリエ解析 (Short-Time Fourier Transform)と呼ぶ.
フーリエ変換
目的
自然界の音は、複数の周波数の音が組み合わさってできている.
この組み合わさり方の違いが、音の違いとして現れる.
人間の体は、得た振動を周波数ごとに分解し、それぞれの振動の強さを神経に伝えることで音の違いを知覚している.
そのため、音声解析においても音の波形を周波数に分解する.
時間信号を周波数ごとの信号に分解する手段として、フーリエ変換がある.
フーリエ変換が利用できる理由
この目的を達成するための手段として、フーリエ変換が利用できる理由として、 フーリエ変換は「あらゆる周期的な信号は、周波数の異なる三角関数の組み合わせで表現できる」という定理 (フーリエの定理) に基づいているから.
フーリエ変換の種類
解析では、離散値を扱うため、離散フーリエ変換が利用される.
離散フーリエ変換
が周期 (離散的なので、区間内のサンプル数に相当) の周期的信号であるとする.
は (複素) スペクトル (Complex Spectrum) と呼ばれ、 を周波数成分に分解した結果.
正確には、 は 1 秒を 1 周期ちみなす周波数 [Hz] ではなく、 の範囲を
1 周期とみなしたときの周波数を意味する.
例えば、 は、 の範囲でちょうど 1 周する波の成分で、
は 2 周する、つまり、 の 2 倍の周波数を持つ波の成分 (第 高周波と呼ぶ)
ということになる.
は、複素数であり、振幅と位相の両方の情報をもっている.
逆離散フーリエ変換 (Inverse Discrete Fourier Transform / IDFT)
スペクトルから時間信号に戻す処理は、逆離散フーリエ変換 (Inverse Discrete Fourier Transform / IDFT)と呼ばれる.
高速フーリエ変換 (Fast Fourier Transform / FFT)
実用では、計算時間を減らすために、一般に高速フーリエ変換 (Fast Fourier Transform / FFT) を用いる.
スペクトル
フーリエ変換の結果 を (複素) スペクトル (Complex Spectrum) と呼ぶ.
それに対して、絶対値をとった を振幅スペクトルと呼び、 偏角 を位相スペクトルと呼ぶ.
パワースペクトル
また、振幅スペクトルの二乗をとった をパワースペクトルと呼ぶ.
パワースペクトルは、音の大きさを表す.
パワースペクトルは以下の式で表される.
実装
- 短時間フーリエ分析 #実装編