オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

データサイエンス-音声解析

【音声解析】Diffusion Model #まとめ編

Index Index アルゴリズム Multi Source Diffusion Models / 2023 Noise2Music / 2023 ERNIE-Music / 2023 Adapting Diffusion / 2023 参考 アルゴリズム Diffusion Model を利用した音声解析の手法をまとめる. Diffusion Model #まとめ編 yhayato1320.haten…

【データセット】音声データ

音声データ 音声データのデータセットをまとめる. データセット #まとめ編 yhayato1320.hatenablog.com 音声解析 #まとめ編 yhayato1320.hatenablog.com JSUT コーパス 1 名の日本語女性話者による約 10 時間の音声が収録されている. JSUT corpus: free larg…

【音声解析】DP マッチング / DTW

音声解析 yhayato1320.hatenablog.com Index Index DP (Dynamic Programming) マッチング テンプレートマッチング 時間的ゆらぎ 音声アライメント アルゴリズム 最短経路問題 動的計画法 Dynamic Time Warping / DTW 参考 書籍 DP (Dynamic Programming) マ…

【音声解析】ケプストラム特徴量 #実装編

Index Index ケプストラム特徴量 実装 ケプストラム特徴量の抽出 メル周波数ケプストラム特徴量の抽出 ケプストラムの表示 MFCC ケプストラム特徴量 ケプストラム特徴量 #アルゴリズム編 yhayato1320.hatenablog.com 実装 ケプストラム特徴量の抽出 メル周波…

【音声解析】ケプストラム特徴量 #アルゴリズム編

Index Index ケプストラム特徴量 / cepstrum 発生のメカニズム 声門・声帯の振動・声門波・パワースペクトル フォルトマン ケプストラム分析 処理内容 計算方法 逆フーリエ変換 リフタリング メル周波数ケプストラム特徴量 / MFCC 離散コサイン変換 / Discre…

【音声解析】フィルタバンク #実装編

Index Index フィルタバンク / フィルタバンク分析 実装 実行 スペクトログラム画像 フィルタバンク / フィルタバンク分析 フィルタバンク #アルゴリズム編 yhayato1320.hatenablog.com 実装 実行 スペクトログラム画像

【音声解析】アルゴリズム #まとめ編

Index Index 音声解析におけるアルゴリズム DNN WaveNet / 2016 RNN Deep Speech / 2014 CNN Wav2letter / 2016 wav2vec /2019 wav2vec 2.0 / 2020 wav2vec-U / 2021 Attention ESPnet / 2018 ReazonSpeech / 2023 Whisper / 2022 WhisperX / 2023 Squeezefo…

【音声解析】Speech Synthesis / 音声合成

Index Index Speech Synthesis / 音声合成 アルゴリズム 参考 Web サイト Speech Synthesis / 音声合成 テキスト、唇の動きなどの他のモダリティから音声を生成するタスク. アルゴリズム STATISTICAL PARAMETRIC SPEECH SYNTHESIS [2007] https://www.cs.cmu…

【音声解析】音声区間検出

音声解析 yhayato1320.hatenablog.com Index Index 音声区間検出 ゼロ交差率 (Zero Crossing Rate) 音声パワー (Speech Power) 信号対雑音比 (Signal-to-Noise Ration / SNR) 参考 音声区間検出 音声区間検出 (Voice Activity Detection / VAD) とは、音声認…

【音声解析】高域強調 / プリエンファシス

音声解析 yhayato1320.hatenablog.com Index Index 高域強調 / プリエンファシス 目的 処理内容 参考 高域強調 / プリエンファシス 目的 音声のパワー・大きさ (音圧) は、高域・高周波数帯域になるほど減衰する. そのため、それを補償するために、高域強調…

【音声解析】音韻と音素

音声解析 yhayato1320.hatenablog.com Index Index 音韻と音素 参考 音韻と音素 音声には、様々な情報が含まれているが、 音声認識では音韻 / Phoneme と音素 / Phone という情報を利用する. 音韻とは、ある言語における識別のために必要な最小な単位の集合.…

【音声解析】分析区間・音声フレーム

Index Index 音声フレーム オーバーラップ フレームサイズ フレーム周期 分析窓・窓関数 ノイズが発生する原因 ハミング窓 (Hamming Window) とハニング窓 (Hanning Window) 参考 音声フレーム 音声解析における前処理のひとつ. 音声解析 前処理 yhayato1320…

【音声解析】短時間フーリエ分析 #アルゴリズム編

Index Index 短時間フーリエ分析 フーリエ変換 目的 フーリエ変換が利用できる理由 フーリエ変換の種類 離散フーリエ変換 逆離散フーリエ変換 (Inverse Discrete Fourier Transform / IDFT) 高速フーリエ変換 (Fast Fourier Transform / FFT) スペクトル パ…

【音声解析】前処理 #まとめ編

Index Index 前処理 アナログ - デジタル変換 / AD 変換 ディザリング処理 直流成分除去 高域強調 音声フレーム 音声区間検出 参考 前処理 音声解析における前処理を記す. 音声解析 #まとめ編 yhayato1320.hatenablog.com アナログ - デジタル変換 / AD 変換…

【音声解析】分野一覧 #まとめ編

Index Index 音声解析 音 音の知覚 音の高さ 音の大きさ 音の表現 音声 音声の生成 音韻と音素 前処理 特徴量抽出 短時間フーリエ分析 フィルタバンク ケプストラム特徴量 差分特徴量 音声パワー 解析手法 ルールベース DP (Dynamic Programming) マッチング…