Back to Search Start Over

Conversion de la voix : Approches et applications

Authors :
Ben Othmane, Imen
Statistical Machine Translation and Speech Modelization and Text (SMarT)
Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD)
Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA)
Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA)
Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)
Electricité Intelligente et Technologies de l’Information et des Communications (EI&TIC Lab)
Université de Carthage - University of Carthage
Université de Carthage (Tunisie)
Kais Ouni
Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA)
Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Source :
Traitement du signal et de l'image [eess.SP]. Université de Carthage (Tunisie), 2019. Français, Traitement du signal et de l'image [eess.SP]. Université de Carthage (Tunisie), 2019. Français. ⟨NNT : ⟩
Publication Year :
2019
Publisher :
HAL CCSD, 2019.

Abstract

Voice conversion (VC) is an important problem in the field of audio signal processing.The goal of voice conversion is to transform the speech signal of a source speakersuch that it sounds as if it had been uttered by a target speaker while preserving thesame linguistic content of the original signal. Gaussian mixture model (GMM) basedconversion is the most commonly used technique in VC, but is often sensitive to overfittingand oversmoothing. To address these issues, we propose a secondary classificationby applying a K-means classification in each class obtained by a primary classificationin order to obtain more precise local conversion functions. This proposal avoids theneed for complex training algorithms because the estimated local mapping functionsare determined at the same time.The second contribution of this thesis, includes a new methodology for designingthe relationship between two sets of spectral envelopes. Our systems perform by :1) cascading Deep Neural Networks with Gaussian Mixture Models for constructingDNN-GMM and GMM-DNN-GMM models in order to find an efficient global mappingrelationship between the cepstral vectors of the two speakers ; 2) using a newspectral synthesis process with excitation and phase extracted from the target trainingspace encoded as a KD-tree.Experimental results of the proposed methods exhibit a great improvement in intelligibility,quality and naturalness of the converted speech signals when compared withthose obtained by a baseline conversion method. The extraction of excitation and phasefrom the target training space, allows the preservation of target speaker’s identity.Our last contribution of this thesis concerns the implementation of a novel speakingaidsystem for enhancing esophageal speech (ES). The method adopted in this thesisaims to improve the quality of esophageal speech using a combination of a voiceconversion technique and a time dilation algorithm. In the proposed system, a DeepNeural Network (DNN) is used as a nonlinear mapping function for vocal tract vectorsconversion. Then the converted frames are used to determine realistic excitationand phase vectors from the target training space using a frame selection algorithm. Wedemonstrate that that our proposed method provides considerable improvement in intelligibilityand naturalness of the converted esophageal stimuli.; La conversion vocale est un problème important dans le domaine du traitement dusignal audio. Le but de la conversion de voix est de transformer le signal de paroled’un locuteur source de telle sorte qu’il soit perçu comme s’il avait été prononcé par unlocuteur cible tout en conservant le contenu linguistique du signal converti identiqueà celui du signal d’origine. La conversion basée sur un modèle de mélange gaussien(GMM) est la technique la plus couramment utilisée dans le domaine de la conversionvocale, mais elle est souvent sensible aux problèmes de sur-apprentissage et de lissageexcessif. Pour résoudre ces problèmes, nous proposons une classification secondaire enappliquant une classification, par la technique des K-moyennes, dans chaque classe obtenuepar une classification primaire afin d’obtenir des fonctions de conversion localesplus précises. Cette proposition évite le recours à des algorithmes d’apprentissage complexescar les fonctions de transformation locales sont déterminées en même temps.La deuxième contribution de cette thèse inclut une nouvelle méthodologie pourconcevoir la relation entre deux ensembles d’enveloppes spectrales. Nos systèmes fonctionnent: 1) en cascadant des réseaux de neurones profonds avec un modèle de mélangegaussien pour construire des modèles DNN-GMM et GMM-DNN-GMM, ceciafin de trouver une fonction de transformation performante entre les vecteurs cepstrauxdes deux locuteurs ; 2) en utilisant un nouveau processus de synthèse spectralemettant en oeuvre des prédicteurs de cepstres en cascade avec une excitation et unephase extraites de l’espace d’apprentissage cible codé sous la forme d’un arbre binaireKD-tree.Les résultats expérimentaux des méthodes proposées exhibent une nette améliorationde l’intelligibilité, de la qualité et du naturel des signaux de parole convertis parrapport aux résultats obtenus avec une méthode de conversion de base. L’extraction del’excitation et de la phase de l’espace d’apprentissage cible permet de préserver l’identitédu locuteur cible.Notre dernière contribution de cette thèse concerne l’implémentation d’un nouveausystème d’aide à la parole pour améliorer la parole oesophagienne (ES). La méthodeadoptée dans cette thèse vise à améliorer la qualité de la voix oesophagienne en combinantune technique de conversion vocale et un algorithme de dilatation temporelle.Dans le système proposé, un réseau de neurones profonds (DNN) est utilisé pour transformerde manière non linéaire les vecteurs cepstraux relatifs au conduit vocal. Ensuite,les trames converties obtenues sont utilisées pour déterminer les vecteurs d’excitationet de phase réalistes à partir de l’espace d’apprentissage cible préalablement codé sousla forme d’un arbre binaire. Nous montrons que la méthode proposée améliore considérablementl’intelligibilité et le naturel de la voix oesophagienne convertie.

Details

Language :
French
Database :
OpenAIRE
Journal :
Traitement du signal et de l'image [eess.SP]. Université de Carthage (Tunisie), 2019. Français, Traitement du signal et de l'image [eess.SP]. Université de Carthage (Tunisie), 2019. Français. ⟨NNT : ⟩
Accession number :
edsair.dedup.wf.001..ebb545e0e765167e74c1c90817b12c7e