オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Text-to-Speach / TTS

Index

Text-to-Speach / TTS

SPEAR-TTS / 2023

  • Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Multilingual Shallow Fusion / 2023

  • Massively Multilingual Shallow Fusion with Large Language Models

Imaginary Voice / 2023

  • Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

Foundation TTS / 2023

  • FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model

NaturalSpeech 2 / 2023

テクニック・工夫

pause insertion / 2023

アプリケーション・サービス

Bark