オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】音声区間検出

データサイエンスデータサイエンス-音声解析

音声解析
- yhayato1320.hatenablog.com

Index

Index
音声区間検出
参考

音声区間検出

音声区間検出 (Voice Activity Detection / VAD) とは、音声認識システムのマイクロホンから入力された音から、音声が存在する区間のみを検出する処理のことを指す.

目的は 2 つ.

計算資源の節約
雑音の除去

よく用いられる特徴量は、ゼロ交差率 (Zero Crossing Rate)、音声パワー (Speech Power)、信号対雑音比 (Signal-to-Noise Ration / SNR) がある.

ゼロ交差率 (Zero Crossing Rate)

ゼロ交差率は、ある一定時間の間に音声波形が、ゼロのレベルを交差する回数.

音声パワー (Speech Power)

音声パワーは、音の大きさそのもの.

信号対雑音比 (Signal-to-Noise Ration / SNR)

信号対雑音比 (Signal-to-Noise Ration / SNR) は、雑音パワーのレベルに対する音声パワーのレベル比のこと.

この SNR に対してあらかじめ閾値を設定し、入力した音の SNR がその閾値を超えたら、音声区間として検出する.

参考

音声認識
- 2 音声分析
  - 2.1 前処理
    - 2.1.4 音声区間検出
- 音声認識 (機械学習プロフェッショナルシリーズ)
  - 作者:篠田浩一
  - 講談社
  Amazon