オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Speech Language #まとめ編

Index

Speech Language

音声と自然言語のマルチモーダルなアルゴリズムやタスクをまとめる.

アルゴリズム

VALL-E X / 2023



CLaMP / 2023

  • CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval

タスク

Text-to-Speech / TTS

テキストを入力とし、音声を出力する.

音声合成 / Speech Synthesis.

Speech-to-Text

MuAViC / 2023

  • MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation