Index
TrackFormer
- TrackFormer #アルゴリズム編
タスク
物体追跡.
- 物体追跡 #まとめ編
- Transformer
- yhayato1320.hatenablog.com
データセット
MOT17.
ライブラリ
- TrackFormer
物体追跡.
MOT17.
音響データである、音声データを解析する.
人間は音をどのように知覚しているのか.
音の高さは、波形の周期性から決まる.
波形の周期が長くなると、音は低くなり、
波形の周期が短くなると、音は高くなる.
人間の知覚する音の高さは、周波数と比例しない.
人間の知覚する音の高さを測る尺度として、実験的に求められたメル尺度 (mel scale)がよく使われる.
音の大きさは、音圧や音の強さ と関連する.
音は、波形、スペクトログラム で示すことができる.
音声の発声には、様々な器官 (調音器官) が関係している.
肺から押し出された息の圧力で引き起こされた声帯の振動により声門波が発声する.
声門波は、声道 (喉頭 + 咽頭 + 口腔 + 鼻腔) を通り、口唇から放射される.
声帯の振動の周波数は、基本周波数 と呼ばれ、音声の物理的な音の高さに相当する.
声道は、声帯から口までの呼気の通り道である.
声道には、一般に複数の共鳴周波数があり、特にそれらの周波数の音声が強くなる.
これをフォルマント周波数と呼ぶ.
音声には、様々な情報が含まれているが、
音声認識では音韻 / Phoneme と音素 / Phone という情報を利用する.
音韻とは、ある言語における識別のために必要な最小な単位の集合.
音韻は、言語によってことなる.
一方、音素とは、音韻と同様に音声を構成する単位だが、
音声の物理的な特徴で分類されたもの.
音声データから特徴量を抽出する前段階として、前処理を行う.
音声区間検出により切り出された音声から特徴量を抽出する処理について述べる.
音声フレームのスペクトル解析を行う.
振幅スペクトルの次元を削減する方法の一つ.
音声認識においては、細かい周波数分の解能は必要ないため、
隣接した周波数成分をまとめて分散を小さくすることが目的.
音声のパワースペクトルでは、その微細構造は声門波を、スペクトル包絡成分は声道のインパルス応答を表現している.
音声認識に必要なのは主に後者 (声道のインパルス応答) なので、それをパワースペクトル取り出す方法を考える.
そのために、ケプストラムを用いる.
目的は、パワースペクトルを変換して、この2つの成分の線形和に置き換え、
フィルタリングによりこの両者を分離すること.
動的計画法を用いた、音声フレーム間のマッチングを行うことで、
音声同士のアライメントを達成する手法.
音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.
この対応関係をアライメントと呼ぶ.
Scikit-learnのGridSearchCVクラスによるグリッドサーチ
Optimizer のパイパーパラメータチューニング.