音響解析 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
アナログ - デジタル変換 / AD 変換
- 標本化・サンプリング
- 量子化
参考

アナログ - デジタル変換 / AD 変換

音の波形は、空気の振動であり、それがマイクロホンにより電圧の変化として観測される.

これは、そもそもアナログ (連続値) であり、計算機で扱うためには離散化 (デジタル化) をする必要がある.

これをアナログ - デジタル変換 (Analogue-to-Digital Conversion) / AD 変換 と呼ぶ.

AD 変換では、まず最初にある特定の時間間隔でデータを取り出す.

この処理を標本化・サンプリング (Sampling) と呼ぶ.

その後、標本化したアナログ信号を数値として記録するために、量子化を行う.

標本化・サンプリング

標本化周期

標本化周期と呼ばれる一定の時間間隔でアナログ信号を読み取る.

標本化の性能は、標本化周期の長さによって決定する.

(標本化周期を短くすると性能は高くなり、長くすると性能は低くなる.)

標本化周波数

標本化の性能は、標本化周期で比較することもあるが、逆数の標本化周波数で比較されることもある.

標本化周波数は、一秒間に何個のデータ点を取得するか.

単位は、Hz

標本 (サンプリング) 定理

どのくらいの時間間隔 (標本化周期) で標本化するべきか.

人間の聞こえる周波数の範囲 (可聴域) は、20 Hz ~ 20000 Hz 程度.

以下のサンプリング定理 (Sampling Theorem) に従えば、ある周波数の信号成分は、その周波数の 2 倍の周波数で標本化すれば完全に復元できる.

標本化定理・サンプリング定理 $x(t)$ が 0 Hz 以上、 $W$ (Hz) 未満の帯域に制限されているとき、 $x(t)$ を $T\ \leq\ \displaystyle \frac{1}{2W}$ (s) ごとに標本化すれば、次式を用いて、標本値系列からもとの波形が完全に再現できる.

$x(t)\ =\ \displaystyle \sum_{n\ =\ -\infty}^{\infty}\ x(nT)\ \displaystyle \frac{\sin(\ \frac{\pi}{T}\ (t\ -\ nT)\ )}{\frac{\pi}{T}\ (t\ -\ nT)}$

$W$ (標本化周波数の半分の値) をナイキスト周波数 (Nyquist Frequency) と呼ぶ.

CD のサンプリング周波数が 44.1 kHz なのは、その半分の 22.05 kHz が可聴域の上限に相当するからである.

音声認識では、人間の発声に含まれる周波数成分が復元できれば十分である.

人間の発声に含まれる周波数のうち音韻の識別に必要な情報が含まれているのはだいたい 8 kHz までなので、多くの場合、音声認識のためには、16 kHz 程度で標本化が行われる.

量子化

標本化したデータに対し、数値データとして記録するために、量子化の処理を行う.

各時点で標本化された数値をどのくらいの精度で表現するかを決める.

標本化が時間を離散化する処理になっているのに対して、量子化は振幅を離散化する処理になっている.

(1234.56789123456789.... どこまで情報を保持するか)

性能

量子化の性能は、振幅を区切るステップ数によって決まる.

ステップ数を増やすと精度が高くなり、減らすと量子化の性能は低くなる

量子化精度

ステップ数の対数として定義される量子化精度によって比較することもできる.

bit

16 bit or 32 bit.

参考

音声認識
- 2 音声分析
  - 2.1 前処理
    - 2.1.1 アナログ - デジタル変換
    - 2.1.2 高域強調
    - 2.1.3 音声フレーム
    - 2.1.4 音声区間検出
- 音声認識 (機械学習プロフェッショナルシリーズ)
  - 作者:篠田浩一
  - 講談社
  Amazon
Python ではじめる音のプログラミング
- 2 サウンドプログラミング
  - 2.1 サンプリング
  - 2.2 標本化
  - 2.3 量子化
- Pythonではじめる音のプログラミング－コンピュータミュージックの信号処理－
  - 作者:青木直史
  - オーム社
  Amazon

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音響解析】アナログ・デジタル変換 / AD 変換