Back to Search Start Over

Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole

Authors :
Girin, Laurent
Bie, Xiaoyu
Leglaive, Simon
Hueber, Thomas
Alameda-Pineda, Xavier
GIPSA - Cognitive Robotics, Interactive Systems, & Speech Processing (GIPSA-CRISSP)
GIPSA Pôle Parole et Cognition (GIPSA-PPC)
Grenoble Images Parole Signal Automatique (GIPSA-lab)
Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )
Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )
Université Grenoble Alpes (UGA)-Grenoble Images Parole Signal Automatique (GIPSA-lab)
Université Grenoble Alpes (UGA)
Vers des robots à l’intelligence sociale au travers de l’apprentissage, de la perception et de la commande (ROBOTLEARN)
Inria Grenoble - Rhône-Alpes
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Grenoble Alpes (UGA)
Institut d'Électronique et des Technologies du numéRique (IETR)
Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Nantes Université - pôle Sciences et technologie
Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)
Université de Nantes
ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
Source :
JEP 2022-34e Journées d’Études sur la Parole, JEP 2022-34e Journées d’Études sur la Parole, Université de Nantes, Jun 2022, Noirmoutier, France. pp.655-663, ⟨10.21437/JEP.2022-69⟩
Publication Year :
2022
Publisher :
HAL CCSD, 2022.

Abstract

International audience; The Variational Autoencoder (VAE) is a powerful deep generative model that is now extensively used to represent high-dimensional complex data via a low-dimensional latent space learned in an unsupervised manner. In the original VAE model, input data vectors are processed independently. In recent years, a series of papers have presented different extensions of the VAE to process sequential data, that not only model the latent space, but also model the temporal dependencies within a sequence of data vectors and corresponding latent vectors, relying on recurrent neural networks. We recently performed a comprehensive review of those models and unified them into a general class called Dynamical Variational Autoencoders (DVAEs). In the present paper, we present this class of models and illustrate their high potential for modeling (spectrograms of) speech signals with speech analysis-resynthesis experiments.; L'auto-encodeur variationnel (AEV) est un modèle génératif profond permettant d'apprendre de façon auto-supervisé des représentations latentes compactes, à partir de données complexes de grande dimension. Dans le modèle AEV original, les vecteurs de données d'entrée sont traités indépendamment. Ces dernières années, plusieurs travaux ont proposé différentes extensions de l'AEV afin de traiter des données séquentielles (notamment temporelles). Ces modèles utilisent classiquement des réseaux de neurones récurrents pour tenir compte non seulement des dépendances entre les vecteurs d'une séquence d'entrée, mais également celles entre les représentations latentes correspondantes. Nous avons récemment effectué une revue complète de ces modèles et les avons unifiés en une classe générale appelée auto-encodeurs variationnels dynamiques (AEVDs). Dans le présent article, nous présentons cette classe de modèles et illustrons leur fort potentiel pour la modélisation des (spectrogrammes de) signaux de parole avec des expériences en analyse-resynthèse.

Details

Language :
French
Database :
OpenAIRE
Journal :
JEP 2022-34e Journées d’Études sur la Parole, JEP 2022-34e Journées d’Études sur la Parole, Université de Nantes, Jun 2022, Noirmoutier, France. pp.655-663, ⟨10.21437/JEP.2022-69⟩
Accession number :
edsair.dedup.wf.001..9b2a4e1a3b1ab163703efdbc61c705eb
Full Text :
https://doi.org/10.21437/JEP.2022-69⟩