[Paper Review] VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
VALL-E 2
TTS에서 probabilistic duration model이 효과적인 상황 탐구
Parler-TTS
SoundStream 보다 발전된 뉴럴 오디오 코덱
최초의 End-to-End 뉴럴 오디오 코덱
사람의 얼굴에 어울리는 목소리를 자동으로 만들어주는 디퓨전 기반 TTS 모델
인물의 사진을 보고 어울리는 음성을 직접 제작할 수 있는 모델
한국어의 발음특성을 고려한 FFNN G2P 모델
Diffusion Probabilistic Model 기반 decoder를 사용한 TTS 모델
contrastive learning을 활용한 중국어 G2P
Transformer로 TTS와 STT를 동시에 하는 방법
G2P 없이 Lexicon 만으로 TTS 발음 오류를 줄여보자
byte로 다중 언어 G2P 성능을 높여보자
BERT에서 뽑아낸 feature로 중국어 TTS 전처리 과정 단순하게 만들기
중국어 G2P를 위한 bi-directional LSTM
Seq2Seq 기반 G2P
G2P에 LSTM을 처음 적용한 논문
다양한 감정으로 다화자 음성 합성을 해보자
style embedding을 통해 Tacotron으로 합성한 음성의 스타일을 조절해보자
MOS를 예측하는 데 생기는 어려움들을 생각해보자
MBNet에서 단점을 파악하고 개선해보자
평가자 정보를 활용해 더 정확하게 MOS를 예측해보자
FastPitch에 source-filter 이론을 접목시켰다
FastSpeech2와 거의 동시에 나온 FastSpeech 후속 버전
TTS에 meta learning 적용하기
GAN 기반 보코더의 한계를 극복
Parallel Tacotron + duration model
Non Autoregressive Tacotron + VAE
AdaSpeech를 자연스러운 발화가 가능하도록 만들어보자
AdaSpeech에서 전사가 안된 데이터를 활용해서 TTS를 할 수 있게 만들어보자
적은 양의 데이터로 개인화 음성을 합성해보자
스펙트로그램 없이 end-to-end TTS 하기
Flow 기반의 TTS 모델
GAN 기반의 빠르고 효율적인 보코더
GAN loss와 새로운 loss를 결합하여 TTS를 하는 모델
오디오 합성에 처음으로 GAN을 적용한 WaveGAN을 소개하는 논문
FastSpeech에서 teacher forcing을 제거한 모델
Transformer 기반의 빠르고 조절 가능한 TTS 모델
Tacotron 1,2 리뷰
긴 시계열 예측에 특화된 트랜스포머 모델
비정상성을 가진 시계열 데이터를 위한 새로운 Loss function 제안
GAN을 활용한 Transformer 훈련
오직 딥러닝 아키텍처만을 이용한 TS모델
트랜스포머를 활용한 multi-horizon time-series 예측
배경음악이 깔린 상황에서 음성인식을 할 수 있는 모델
금융공학 입문용 책