Index

Index
音声解析
音
- 音の知覚
  - 音の高さ
  - 音の大きさ
- 音の表現
音声
- 音声の生成
- 音韻と音素
前処理
特徴量抽出
解析手法
- ルールベース
  - DP (Dynamic Programming) マッチング
- 機械学習 / Machine Learning
  - 深層学習 / Deep Learning
タスク
データセット
参考
- 書籍
- Web サイト

音声解析

音響データである、音声データを解析する.

音響解析
- yhayato1320.hatenablog.com

音

音の知覚

人間は音をどのように知覚しているのか.

音の高さ

音の高さは、波形の周期性から決まる.

波形の周期が長くなると、音は低くなり、波形の周期が短くなると、音は高くなる.

人間の知覚する音の高さは、周波数と比例しない.

人間の知覚する音の高さを測る尺度として、実験的に求められたメル尺度 (mel scale)がよく使われる.

音の高さ
- yhayato1320.hatenablog.com

音の大きさ

音の大きさは、音圧や音の強さ と関連する.

音圧・音の強さ・音のレベル
- yhayato1320.hatenablog.com

音の表現

音は、波形、スペクトログラム で示すことができる.

波形

スペクトログラム

音声

音声の生成

音声の発声には、様々な器官 (調音器官) が関係している.

声帯
声道

肺から押し出された息の圧力で引き起こされた声帯の振動により声門波が発声する.

声門波は、声道 (喉頭 + 咽頭 + 口腔 + 鼻腔) を通り、口唇から放射される.

声帯の振動の周波数は、基本周波数 と呼ばれ、音声の物理的な音の高さに相当する.

物理的な音の高さに対して、人間の知覚する音の高さは、ピッチ (pitch) と呼ばれ、必ずしも一致しない.

声道は、声帯から口までの呼気の通り道である.

声道には、一般に複数の共鳴周波数があり、特にそれらの周波数の音声が強くなる.

これをフォルマント周波数と呼ぶ.

音韻と音素

音声には、様々な情報が含まれているが、音声認識では音韻 / Phoneme と音素 / Phone という情報を利用する.

音韻とは、ある言語における識別のために必要な最小な単位の集合.

音韻は、言語によってことなる.

一方、音素とは、音韻と同様に音声を構成する単位だが、音声の物理的な特徴で分類されたもの.

音韻と音素
- yhayato1320.hatenablog.com

前処理

音声データから特徴量を抽出する前段階として、前処理を行う.

音声解析前処理
- アナログ・デジタル変換
- ディザリング処理
- 直流成分除去
- 高域強調
- 音声フレーム
- 音声区間検出
- yhayato1320.hatenablog.com

特徴量抽出

音声区間検出により切り出された音声から特徴量を抽出する処理について述べる.

短時間フーリエ分析

音声フレームのスペクトル解析を行う.

短時間フーリエ変換
- yhayato1320.hatenablog.com

フィルタバンク

振幅スペクトルの次元を削減する方法の一つ.

音声認識においては、細かい周波数分の解能は必要ないため、隣接した周波数成分をまとめて分散を小さくすることが目的.

フィルタバンク
- メルフィルタバンク / 対数メルフィルタバンク
- yhayato1320.hatenablog.com

ケプストラム特徴量

音声のパワースペクトルでは、その微細構造は声門波を、スペクトル包絡成分は声道のインパルス応答を表現している.

音声認識に必要なのは主に後者 (声道のインパルス応答) なので、それをパワースペクトル取り出す方法を考える.

そのために、ケプストラムを用いる.

目的は、パワースペクトルを変換して、この２つの成分の線形和に置き換え、フィルタリングによりこの両者を分離すること.

ケプストラム特徴量
- yhayato1320.hatenablog.com

差分特徴量

音声パワー

解析手法

ルールベース

DP (Dynamic Programming) マッチング

動的計画法を用いた、音声フレーム間のマッチングを行うことで、音声同士のアライメントを達成する手法.

DP マッチング
- yhayato1320.hatenablog.com

機械学習 / Machine Learning

GMM-HMM

深層学習 / Deep Learning

音声解析における深層学習を用いたアルゴリズム
- yhayato1320.hatenablog.com

タスク

音声解析タスク #まとめ編
- yhayato1320.hatenablog.com

音声アライメント

入力音声とテンプレート音声のマッチングを行うアルゴリズムなど、

音声同士の近さを測るためには、各音声のどのフレーム同士が対応しているのかを知る必要がある.

この対応関係をアライメントと呼ぶ.

Speech Synthesis / 音声合成

Speech Synthesis / 音声合成
- yhayato1320.hatenablog.com

Speaker Change Detection / SCD

TT-ASR / 2023

Speaker Change Detection for Transformer Transducer ASR
- [2023]
- arxiv.org

Visual Speech Recognition

Visual Front-End / 2023

Conformers are All You Need for Visual Speech Recogntion
- [2023]
- arxiv.org

SynthVSR / 2023

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision
- [2023]
- arxiv.org

データセット

音声データ
- yhayato1320.hatenablog.com

参考

書籍

音声認識
- 1 音声とは
  - 1.1 音の知覚
  - 1.2 音声の生成
  - 1.3 音韻と音素
- 2 音声分析
  - 2.1 前処理
    - 2.1.1 アナログ - デジタル変換
    - 2.1.2 高域強調
    - 2.1.3 音声フレーム
    - 2.1.4 音声区間検出
  - 2.2 音声特徴量
    - 2.2.1 短時間フーリエ分析
    - 2.2.2 メタフィルタバンク
    - 2.2.3 ケプストラム特徴量
    - 2.2.4 差分特徴量
    - 2.2.5 音声パワー
    - 2.2.6 まとめ
- 3 音声認識とは
  - 3.2 DP マッチング
- 4 隠れマルコフモデル
- 5 言語モデル
- 6 大語彙連続音声認識
- 7 耐雑音音声認識
- 8 話者適応と話者認識
- 9 深層学習
- 音声認識 (機械学習プロフェッショナルシリーズ)
  - 作者:篠田浩一
  - 講談社
  Amazon
Python で学ぶ音声認識
- 3 音声処理の基礎と特徴量抽出
  - 3.1 データの準備
  - 3.2 音声ファイルを読み込んでみよう
  - 3.3 フーリエ変換を使って音声を周波数分解しよう
  - 3.4 音声を短時間フーリエ変換してスペクトログラムを作成しよう
  - 3.5 対数メルフィルタバンク特徴量
    - ディザリング
    - 直流 (DC) 成分除去
    - 高域強調 (プリエンファシス)
    - フィルタバンク分析
  - 3.6 メル周波数ケプストラム特徴量
  - 3.7 特徴量の平均と標準偏差を計算してみよう
- 4 音声認識の初歩 - DP マッチング -
  - 4.1 音声認識につきまとう、アライメント問題
  - 4.2 DP マッチング
  - 4.3 DP マッチングを実装してみよう
- Pythonで学ぶ音声認識機械学習実践シリーズ
  - 作者:高島遼一
  - インプレス
  Amazon

Web サイト

paperswithcode.com
- paper with code の audio の area のページ

Index

Index
ハイパーパラメータチューニング / Hyper Parameter Turning
深層学習特有のハイパーパラメータチューニング
- Gradient Descent The Ultimate Optimizer / 2022
Library
参考
- 書籍
- Web サイト

ハイパーパラメータチューニング / Hyper Parameter Turning

機械学習 #まとめ編
- yhayato1320.hatenablog.com

ランダムサーチ / Random Search

【python】sklearnのRandomizedSearchCVを使ってみる
- www.haya-programming.com

グリットサーチ / Grid Search

【機械学習×Python】グリッドサーチによるハイパーパラメータ最適化方法を実演・ランダムフォレストによるモデル構築
- di-acc2.com
Scikit-learnのGridSearchCVクラスによるグリッドサーチ
- helve-blog.com

CMA-ES

Tree-structured Parzen Estimator / TPE

ベイズ最適化

深層学習特有のハイパーパラメータチューニング

Gradient Descent The Ultimate Optimizer / 2022

Optimizer のパイパーパラメータチューニング.

Gradient Descent: The Ultimate Optimizer
- [2019]
- arxiv.org

Library

Google Vizier
- github.com

参考

書籍

Python 機械学習プログラミング
- 6 モデルの評価とハイパーパラメータのチューニングのベストプラクティス
  - 6.4 グリッドサーチによる機械学習モデルのチューニング
- [asin:B01HGIPIAK:detail]

Web サイト

忙しい人のためのTuning Playbook
- hippocampus-garden.com
- github.com

Index

TrackFormer

タスク

データセット

ライブラリ

実装

Library

Dataset

Model

実行の確認

結果

video データからの処理

Index

音声解析

音

音の知覚

音の高さ

音の大きさ

音の表現

音声

音声の生成

音韻と音素

前処理

特徴量抽出

短時間フーリエ分析

フィルタバンク

ケプストラム特徴量

差分特徴量

音声パワー

解析手法

ルールベース

DP (Dynamic Programming) マッチング

機械学習 / Machine Learning

深層学習 / Deep Learning

タスク

音声アライメント

Speech Synthesis / 音声合成

Speaker Change Detection / SCD

TT-ASR / 2023

Visual Speech Recognition

Visual Front-End / 2023

SynthVSR / 2023

データセット

参考

書籍

Web サイト

Index

Electricity Load Diagrams 2011 2014

実装

Index

Gradient Boosting

タスク

データセット

実装

参考

Index

実装編

Index

Monthly Airline Passenger Numbers 1949-1960

実装

参考

Index

ハイパーパラメータチューニング / Hyper Parameter Turning

ランダムサーチ / Random Search

グリットサーチ / Grid Search

CMA-ES

Tree-structured Parzen Estimator / TPE

ベイズ最適化

深層学習特有のハイパーパラメータチューニング

Gradient Descent The Ultimate Optimizer / 2022

Library

参考

書籍

Web サイト