[Paper Review] Multi-Speaker Emotional Text-to-Speech Synthesizer
다양한 감정으로 다화자 음성 합성을 해보자
다양한 감정으로 다화자 음성 합성을 해보자
style embedding을 통해 Tacotron으로 합성한 음성의 스타일을 조절해보자
MOS를 예측하는 데 생기는 어려움들을 생각해보자
MBNet에서 단점을 파악하고 개선해보자
평가자 정보를 활용해 더 정확하게 MOS를 예측해보자