Index
音声区間検出
音声区間検出 (Voice Activity Detection / VAD) とは、音声認識システムのマイクロホンから入力された音から、
音声が存在する区間のみを検出する処理のことを指す.
目的は 2 つ.
- 計算資源の節約
- 雑音の除去
よく用いられる特徴量は、ゼロ交差率 (Zero Crossing Rate)、音声パワー (Speech Power)、信号対雑音比 (Signal-to-Noise Ration / SNR) がある.
ゼロ交差率 (Zero Crossing Rate)
ゼロ交差率は、ある一定時間の間に音声波形が、ゼロのレベルを交差する回数.
音声パワー (Speech Power)
音声パワーは、音の大きさそのもの.
信号対雑音比 (Signal-to-Noise Ration / SNR)
信号対雑音比 (Signal-to-Noise Ration / SNR) は、雑音パワーのレベルに対する音声パワーのレベル比のこと.
この SNR に対してあらかじめ閾値を設定し、入力した音の SNR がその閾値を超えたら、音声区間として検出する.