Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Dynamical variational autoencoders and their application to speech spectrogram modeling

Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole

Résumé

The Variational Autoencoder (VAE) is a powerful deep generative model that is now extensively used to represent high-dimensional complex data via a low-dimensional latent space learned in an unsupervised manner. In the original VAE model, input data vectors are processed independently. In recent years, a series of papers have presented different extensions of the VAE to process sequential data, that not only model the latent space, but also model the temporal dependencies within a sequence of data vectors and corresponding latent vectors, relying on recurrent neural networks. We recently performed a comprehensive review of those models and unified them into a general class called Dynamical Variational Autoencoders (DVAEs). In the present paper, we present this class of models and illustrate their high potential for modeling (spectrograms of) speech signals with speech analysis-resynthesis experiments.
L'auto-encodeur variationnel (AEV) est un modèle génératif profond permettant d'apprendre de façon auto-supervisé des représentations latentes compactes, à partir de données complexes de grande dimension. Dans le modèle AEV original, les vecteurs de données d'entrée sont traités indépendamment. Ces dernières années, plusieurs travaux ont proposé différentes extensions de l'AEV afin de traiter des données séquentielles (notamment temporelles). Ces modèles utilisent classiquement des réseaux de neurones récurrents pour tenir compte non seulement des dépendances entre les vecteurs d'une séquence d'entrée, mais également celles entre les représentations latentes correspondantes. Nous avons récemment effectué une revue complète de ces modèles et les avons unifiés en une classe générale appelée auto-encodeurs variationnels dynamiques (AEVDs). Dans le présent article, nous présentons cette classe de modèles et illustrons leur fort potentiel pour la modélisation des (spectrogrammes de) signaux de parole avec des expériences en analyse-resynthèse.
Fichier principal
Vignette du fichier
Girin_et_al-JEP2022.pdf (891.59 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03978396 , version 1 (08-02-2023)

Identifiants

Citer

Laurent Girin, Xiaoyu Bie, Simon Leglaive, Thomas Hueber, Xavier Alameda-Pineda. Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole. JEP 2022 - 34e Journées d’Études sur la Parole, Université de Nantes, Jun 2022, Noirmoutier, France. pp.655-663, ⟨10.21437/JEP.2022-69⟩. ⟨hal-03978396⟩
47 Consultations
115 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More