Index
Speech Language
音声と自然言語のマルチモーダルなアルゴリズムやタスクをまとめる.
音声解析
マルチモーダル
アルゴリズム
VALL-E X / 2023
- Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling
- [2023]
- arxiv.org
- vallex-demo.github.io
CLaMP / 2023
- CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval
- [2023]
- arxiv.org
タスク
Text-to-Speech / TTS
テキストを入力とし、音声を出力する.
音声合成 / Speech Synthesis.
- Text-to-Speech / Speech Synthesis
Speech-to-Text
MuAViC / 2023
- MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
- [2023]
- arxiv.org