[Paper Review] VoiceMe: Personalized voice generation in TTS
인물의 사진을 보고 어울리는 음성을 직접 제작할 수 있는 모델
인물의 사진을 보고 어울리는 음성을 직접 제작할 수 있는 모델
한국어의 발음특성을 고려한 FFNN G2P 모델
Diffusion Probabilistic Model 기반 decoder를 사용한 TTS 모델
contrastive learning을 활용한 중국어 G2P
Transformer로 TTS와 STT를 동시에 하는 방법