Posts by Category

[Paper Review] RawBoost: A Raw Data Boosting and Augmentation Method applied to Automatic Speaker Verification Anti-Spoofing

March 21 2025

RawBoost

[Paper Review] Aasist: Audio Anti-Spoofing Using Integrated Spectro-Temporal Graph Attention Networks

October 28 2024

AASIST

[Paper Review] VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

October 02 2024

VALL-E 2

[Paper Review] VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment

September 30 2024

VALL-E R

[Paper Review] Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

September 25 2024

VALL-E X

[Paper Review] Neural Codec Langauge Models are Zero-Shot Text to Speech Synthesizers

September 23 2024

VALL-E

[Paper Review] Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech

September 23 2024

TTS에서 probabilistic duration model이 효과적인 상황 탐구

[Paper Review] Natural language guidance of high-fidelity text-to-speech with synthetic annotations

September 23 2024

Parler-TTS

[Paper Review] High Fidelity Neural Audio Compression

July 17 2024

SoundStream 보다 발전된 뉴럴 오디오 코덱

[Paper Review] SoundStream: An End-to-End Neural Audio Codec

July 03 2024

최초의 End-to-End 뉴럴 오디오 코덱

[Paper Review] Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

June 27 2023

사람의 얼굴에 어울리는 목소리를 자동으로 만들어주는 디퓨전 기반 TTS 모델

[Paper Review] VoiceMe: Personalized voice generation in TTS

June 26 2023

인물의 사진을 보고 어울리는 음성을 직접 제작할 수 있는 모델

[Paper Review] NN-KOG2P: A Novel Grapheme-To-Phoneme Model for Korean Language

January 12 2022

한국어의 발음특성을 고려한 FFNN G2P 모델

[Paper Review] Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

January 11 2022

Diffusion Probabilistic Model 기반 decoder를 사용한 TTS 모델

[Paper Review] Label Embedding for Chinese Grapheme-to-Phoneme Conversion

January 04 2022

contrastive learning을 활용한 중국어 G2P

[Paper Review] Almost Unsupervised Text to Speech and Automatic Speech Recognition

January 03 2022

Transformer로 TTS와 STT를 동시에 하는 방법

[Paper Review] Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by Leveraging External Textual Knowledge

December 20 2021

G2P 없이 Lexicon 만으로 TTS 발음 오류를 줄여보자

[Paper Review] Multilingual grapheme-to-phoneme conversion with byte representation

December 16 2021

byte로 다중 언어 G2P 성능을 높여보자

[Paper Review] Unified Mandarin TTS Front-end Based on Distilled BERT Model

December 15 2021

BERT에서 뽑아낸 feature로 중국어 TTS 전처리 과정 단순하게 만들기

[Paper Review] A bi-directional LSTM approach for polyphone disambiguation in mandarin chinese

December 14 2021

중국어 G2P를 위한 bi-directional LSTM

[Paper Review] Sequence-to-sequence neural net models for grapheme-to-phoneme conversion

December 13 2021

Seq2Seq 기반 G2P

[Paper Review] Grapheme-to-phoneme conversion using Long Short-Term Memory recurrent neural networks

December 10 2021

G2P에 LSTM을 처음 적용한 논문

[Paper Review] Multi-Speaker Emotional Text-to-Speech Synthesizer

December 08 2021

다양한 감정으로 다화자 음성 합성을 해보자

[Paper Review] Style Tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis

December 07 2021

style embedding을 통해 Tacotron으로 합성한 음성의 스타일을 조절해보자

[Paper Review] Generalization Ability of MOS Prediction Networks

December 06 2021

MOS를 예측하는 데 생기는 어려움들을 생각해보자

[Paper Review] LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech

December 03 2021

MBNet에서 단점을 파악하고 개선해보자

[Paper Review] MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

December 02 2021

평가자 정보를 활용해 더 정확하게 MOS를 예측해보자

[Paper Review] FastPitchFormant: Source-Filter Based Decomposed Modeling for Speech Synthesis

December 01 2021

FastPitch에 source-filter 이론을 접목시켰다

[Paper Review] FastPitch: Parallel text-to-speech with pitch prediction

November 30 2021

FastSpeech2와 거의 동시에 나온 FastSpeech 후속 버전

[Paper Review] Meta-StyleSpeech: Multi-Speaker Adaptive Text-to-Speech Generation

November 29 2021

TTS에 meta learning 적용하기

[Paper Review] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

November 26 2021

GAN 기반 보코더의 한계를 극복

[Paper Review] Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Modeling

November 25 2021

Parallel Tacotron + duration model

[Paper Review] Parallel Tacotron: Non-autoregressive and controllable TTS

November 24 2021

Non Autoregressive Tacotron + VAE

[Paper Review] AdaSpeech 3: Adaptive text to speech for spontaneous style

November 23 2021

AdaSpeech를 자연스러운 발화가 가능하도록 만들어보자

[Paper Review] AdaSpeech 2: Adaptive text to speech with untranscribed data

November 22 2021

AdaSpeech에서 전사가 안된 데이터를 활용해서 TTS를 할 수 있게 만들어보자

[Paper Review] AdaSpeech: Adaptive text to speech for custom voice

November 11 2021

적은 양의 데이터로 개인화 음성을 합성해보자

[Paper Review] Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis

November 10 2021

스펙트로그램 없이 end-to-end TTS 하기

[Paper Review] Glow-TTS: A generative flow for text-to-speech via monotonic alignment search

November 02 2021

Flow 기반의 TTS 모델

[Paper Review] Melgan: Generative adversarial networks for conditional waveform synthesis

October 18 2021

GAN 기반의 빠르고 효율적인 보코더

[Paper Review] Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram

October 08 2021

GAN loss와 새로운 loss를 결합하여 TTS를 하는 모델

[Paper Review] Adversarial audio synthesis

October 07 2021

오디오 합성에 처음으로 GAN을 적용한 WaveGAN을 소개하는 논문

[Paper Review] FastSpeech 2: Fast and high-quality end-to-end text to speech

September 30 2021

FastSpeech에서 teacher forcing을 제거한 모델

[Paper Review] FastSpeech: Fast, robust and controllable text to speech

September 29 2021

Transformer 기반의 빠르고 조절 가능한 TTS 모델

[Paper Review] All about Tacotron 1,2

September 13 2021

Tacotron 1,2 리뷰

[Paper Review] Informer: Beyond Efficient Transformer for Long Sequence Time-Series

March 06 2021

긴 시계열 예측에 특화된 트랜스포머 모델

[Paper Review] Shape and Time Distortion Loss for Training Deep Time Series Forecasting Models

February 20 2021

비정상성을 가진 시계열 데이터를 위한 새로운 Loss function 제안

[Paper Review] Adversarial sparse transformer for time series forecasting

January 15 2021

GAN을 활용한 Transformer 훈련

[Paper Review] N-BEATS: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting

November 29 2020

오직 딥러닝 아키텍처만을 이용한 TS모델

[Paper Review] Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

November 01 2020

트랜스포머를 활용한 multi-horizon time-series 예측

[Paper Review] Stock Market Forecasting Using Computational Intelligence: A Survey

October 04 2020

주식 시장 예측 서베이 논문

[Paper Review] End-to-end Music-mixed Speech Recognition

September 05 2020

배경음악이 깔린 상황에서 음성인식을 할 수 있는 모델

[Paper Review] Deep Representation Learning in Speech Processing: Challenges, Recent Advances, and Future Trends

August 26 2020

음성처리 서베이 논문

Changjin Han

Posts by Category

Paper Review

Book Review

Class Review