オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【音声解析】分野一覧 #まとめ編

Index

音声解析

音響データである、音声データを解析する.



音の知覚

人間は音をどのように知覚しているのか.

音の高さ

音の高さは、波形の周期性から決まる.

波形の周期が長くなると、音は低くなり、 波形の周期が短くなると、音は高くなる.

人間の知覚する音の高さは、周波数と比例しない.

人間の知覚する音の高さを測る尺度として、実験的に求められたメル尺度 (mel scale)がよく使われる.

音の大きさ

音の大きさは、音圧や音の強さ と関連する.

音の表現

音は、波形スペクトログラム で示すことができる.

  • 波形



  • スペクトログラム



音声

音声の生成

音声の発声には、様々な器官 (調音器官) が関係している.

  • 声帯
  • 声道

肺から押し出された息の圧力で引き起こされた声帯の振動により声門波が発声する.

声門波は、声道 (喉頭 + 咽頭 + 口腔 + 鼻腔) を通り、口唇から放射される.

声帯の振動の周波数は、基本周波数 と呼ばれ、音声の物理的な音の高さに相当する.

物理的な音の高さに対して、人間の知覚する音の高さは、ピッチ (pitch) と呼ばれ、必ずしも一致しない.



声道は、声帯から口までの呼気の通り道である.

声道には、一般に複数の共鳴周波数があり、特にそれらの周波数の音声が強くなる.

これをフォルマント周波数と呼ぶ.

音韻と音素

音声には、様々な情報が含まれているが、 音声認識では音韻 / Phoneme音素 / Phone という情報を利用する.

音韻とは、ある言語における識別のために必要な最小な単位の集合.

音韻は、言語によってことなる.

一方、音素とは、音韻と同様に音声を構成する単位だが、 音声の物理的な特徴で分類されたもの.

前処理

音声データから特徴量を抽出する前段階として、前処理を行う.

  • 音声解析 前処理

特徴量抽出

音声区間検出により切り出された音声から特徴量を抽出する処理について述べる.

短時間フーリエ分析

音声フレームのスペクトル解析を行う.

フィルタバンク

振幅スペクトルの次元を削減する方法の一つ.

音声認識においては、細かい周波数分の解能は必要ないため、 隣接した周波数成分をまとめて分散を小さくすることが目的.

ケプストラム特徴量

音声のパワースペクトルでは、その微細構造は声門波を、スペクトル包絡成分は声道のインパルス応答を表現している.

音声認識に必要なのは主に後者 (声道のインパルス応答) なので、それをパワースペクトル取り出す方法を考える.

そのために、ケプストラムを用いる.

目的は、パワースペクトルを変換して、この2つの成分の線形和に置き換え、 フィルタリングによりこの両者を分離すること.

差分特徴量

音声パワー

解析手法

ルールベース

DP (Dynamic Programming) マッチング

動的計画法を用いた、音声フレーム間のマッチングを行うことで、 音声同士のアライメントを達成する手法.

機械学習 / Machine Learning

  • GMM-HMM

深層学習 / Deep Learning

タスク

音声アライメント

入力音声とテンプレート音声のマッチングを行うアルゴリズムなど、



音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.

この対応関係をアライメントと呼ぶ.

Speech Synthesis / 音声合成

Speaker Change Detection / SCD

TT-ASR / 2023

  • Speaker Change Detection for Transformer Transducer ASR

Visual Speech Recognition

Visual Front-End / 2023

  • Conformers are All You Need for Visual Speech Recogntion

SynthVSR / 2023

  • SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision

データセット

参考

書籍

Web サイト