オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】音声区間検出

Index

音声区間検出

音声区間検出 (Voice Activity Detection / VAD) とは、音声認識システムのマイクロホンから入力された音から、 音声が存在する区間のみを検出する処理のことを指す.

目的は 2 つ.

  1. 計算資源の節約
  2. 雑音の除去

よく用いられる特徴量は、ゼロ交差率 (Zero Crossing Rate)、音声パワー (Speech Power)、信号対雑音比 (Signal-to-Noise Ration / SNR) がある.

ゼロ交差率 (Zero Crossing Rate)

ゼロ交差率は、ある一定時間の間に音声波形が、ゼロのレベルを交差する回数.

音声パワー (Speech Power)

音声パワーは、音の大きさそのもの.

信号対雑音比 (Signal-to-Noise Ration / SNR)

信号対雑音比 (Signal-to-Noise Ration / SNR) は、雑音パワーのレベルに対する音声パワーのレベル比のこと.

この SNR に対してあらかじめ閾値を設定し、入力した音の SNR がその閾値を超えたら、音声区間として検出する.

参考