Glow-TTS: A Generative Flow for Text-to-Speech via Monotoonic Alignment Search Audio Samples

" Recently, text-to-speech (TTS) models such as FastSpeech and ParaNet have been proposed to generate mel-spectrograms from text in parallel. Despite the advantage, the parallel TTS models cannot be trained without guidance from autoregressive TTS models as their external aligners. In this work, we propose Glow-TTS, a flow-based generative model for parallel TTS that does not require any external aligner. By combining the properties of flows and dynamic programming, the proposed model searches for the most probable monotonic alignment between text and the latent representation of speech on its own. We demonstrate that enforcing hard monotonic alignments enables robust TTS, which generalizes to long utterances, and employing generative flows enables fast, diverse, and controllable speech synthesis. Glow-TTS obtains an order-of-magnitude speed-up over the autoregressive model, Tacotron 2, at synthesis with comparable speech quality. We further show that our model can be easily extended to a multi-speaker setting. "
... from https://arxiv.org/abs/2005.11129


Samples synthesis in Korean



최근에는 FastSpeech 및 ParaNet과 같은 TTS (text-to-speech) 모델이 텍스트에서 병렬로 멜-스펙트로 그램을 생성하기 위해 제안되었습니다.



장점에도 불구하고 병렬 TTS 모델은 외부 정렬 자로서 자기 회귀 TTS 모델의 안내 없이는 학습 할 수 없습니다.



본 연구에서는 외부 얼라이너가 필요없는 병렬 TTS를위한 흐름 기반 생성 모델 인 Glow-TTS를 제안합니다.



흐름의 속성과 동적 프로그래밍을 결합하여 제안 된 모델은 자체적으로 텍스트와 잠재 된 음성 표현 간의 가장 가능성있는 단조로운 정렬을 검색합니다.



하드 단조 정렬을 적용하면 강력한 TTS가 가능하여 긴 발화로 일반화되고 생성 흐름을 사용하면 빠르고 다양하며 제어 가능한 음성 합성이 가능함을 보여줍니다.



Glow-TTS는 유사한 음성 품질로 합성시 자기 회귀 모델 인 Tacotron 2에 비해 속도를 크게 향상시킵니다.



또한 모델을 다중 스피커 설정으로 쉽게 확장 할 수 있음을 보여줍니다.