[Paper Review] Natural language guidance of high-fidelity text-to-speech with synthetic annotations
Parler-TTS
Parler-TTS
SoundStream 보다 발전된 뉴럴 오디오 코덱
최초의 End-to-End 뉴럴 오디오 코덱
사람의 얼굴에 어울리는 목소리를 자동으로 만들어주는 디퓨전 기반 TTS 모델
인물의 사진을 보고 어울리는 음성을 직접 제작할 수 있는 모델