Author: "Yves Laprie" - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Yves Laprie"' showing total 164 results

Start Over Author "Yves Laprie"

164 results on '"Yves Laprie"'

151. Synthèse Acoustico-Visuelle de la Parole par Séléction d'Unités Bimodales

Author: Musti, Utpala, Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Université de Lorraine, Yves Laprie, ANR ViSAC, Ouni, Slim, Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], synthèse de la parole audio-visuelle, [INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing, coût cible, target cost, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], target feature weighting, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], [INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing, unit selection, Audio-visual speech synthesis, sélection d'unités, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing, [SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing
Abstract: This work deals with audio-visual speech synthesis. In the vast literature available in this direction, many of the approaches deal with it by dividing it into two synthesis problems. One of it is acoustic speech synthesis and the other being the generation of corresponding facial animation. But, this does not guarantee a perfectly synchronous and coherent audio-visual speech. To overcome the above drawback implicitly, we proposed a different approach of acoustic-visual speech synthesis by the selection of naturally synchronous bimodal units. The synthesis is based on the classical unit selection paradigm. The main idea behind this synthesis technique is to keep the natural association between the acoustic and visual modality intact. We describe the audio-visual corpus acquisition technique and database preparation for our system. We present an overview of our system and detail the various aspects of bimodal unit selection that need to be optimized for good synthesis. The main focus of this work is to synthesize the speech dynamics well rather than a comprehensive talking head. We describe the visual target features that we designed. We subsequently present an algorithm for target feature weighting. This algorithm that we developed performs target feature weighting and redundant feature elimination iteratively. This is based on the comparison of target cost based ranking and a distance calculated based on the acoustic and visual speech signals of units in the corpus. Finally, we present the perceptual and subjective evaluation of the final synthesis system. The results show that we have achieved the goal of synthesizing the speech dynamics reasonably well., Ce travail porte sur la synthèse de la parole audio-visuelle. Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse. Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante. Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle. Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales. La synthèse est basée sur le modèle de sélection d'unité classique. L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte. Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système. Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse. L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète. Nous décrivons les caractéristiques visuelles cibles que nous avons conçues. Nous avons ensuite présenté un algorithme de pondération de la fonction cible. Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative. Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus. Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final. Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien.
Published: 2013

152. Formant tracking via a multiresolution analysis

Author: Jemaa, Imen, Laprie, Yves, Ecole Nationale d'Ingénieurs de Tunis (ENIT), Université de Tunis El Manar (UTM), Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Université de Lorraine, Faculté des Sciences de Tunis, Yves Laprie(Yves.Laprie@loria.fr), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and UL, Thèses
Subjects: Sclogram, Scalogramme, speech, phonetics, Formants (phonétique), Time-frequency representation, Dynamic programming, Acoustique, arabe, Wavelet ridges, Centre of gravity, Crêtes de Fourier, Traitement automatique de la parole, Spectrogramme, [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], Acoustic, signal processing, Spectrogram, Phonétique acoustique, arabic, phonétique, traitement du signal, Arabe (langue), Crêtes d'ondelettes, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, Filtrage de Kalman, Formant tracking, Centre de gravité, [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Parole, Fourier ridges, [INFO.INFO-HC] Computer Science [cs]/Human-Computer Interaction [cs.HC], Représentation temps-fréquence, Kalman filtering, Suivi de formant, Programmation dynamique
Abstract: Our research work presented in this thesis aims the optimization of the performance of formant tracking algorithms. We began by analyzing different existing techniques used in the automatic formant tracking. This analysis showed that the automatic formant estimation remains difficult despite the use of complex techniques. For the non-availability of database as reference in Arabic, we have developed a phonetically balanced corpus in Arabic while developing a manual phonetic and formant tracking labeling. Then we presented our two new automatic formant tracking approaches which are based on the estimation of Fourier ridges (local maxima of spectrogram) or wavelet ridges (local maxima of scalogram) using as a tracking constraint the calculation of center of gravity of a set of candidate frequencies for each formant, while the second tracking approach is based on dynamic programming combined with Kalman filtering. Finally, we made an exploratory study using manually labeled corpus as a reference to quantify our two new approaches compared to other automatic formant tracking methods. We tested the first approach based on wavelet ridges detection, using the calculation of the center of gravity on synthetic signals and then on real signals issued from our database by testing three types of complex wavelets (CMOR, SHAN and FBSP). Following these tests, it appears that formant tracking and scalogram resolution given by CMOR and FBSP wavelets are better than the SHAN wavelet. To quantitatively evaluate our two approaches, we calculated the absolute difference average and standard deviation. We made several tests with different speakers (male and female) on various long and short vowels and continuous speech signals issued from our database using it as a reference. The formant tracking results are compared to those of Fourier ridges method calculating the center of gravity, LPC analysis combined with filter banks method of Kamran.M and LPC analysis integrated in Praat software. According to the results of the vowels / a / and / A /, we found that formant tracking by the method with wavelet CMOR is generally better than other methods. Therefore, this method provides a correct formant tracking (F1, F2 and F3) and closer to the reference. The results of Fourier and wavelet methods are very similar in some cases since both have fewer errors than the method Praat. These results are proven for the five male speakers which is not the case for the other vowels where there are some errors which are present sometimes in F2 and sometimes in F3. According to the results obtained on continuous speech, we found that in the case of male speakers, the result of both approaches are particularly better than those of Kamran.M method and those of Praat even if they are often few errors in F3. They are also very close to the Fourier ridges method using the calculation of center of gravity. The results obtained in the case of female speakers confirm the trend observed over the male speakers, Nos travaux de recherches présentés dans ce manuscrit ont pour objectif, l'optimisation des performances des algorithmes de suivi des formants. Pour ce faire, nous avons commencé par l'analyse des différentes techniques existantes utilisées dans le suivi automatique des formants. Cette analyse nous a permis de constater que l'estimation automatique des formants reste délicate malgré l'emploi de diverses techniques complexes. Vue la non disponibilité des bases de données de référence en langue arabe, nous avons élaboré un corpus phonétiquement équilibré en langue arabe tout en élaborant un étiquetage manuel phonétique et formantique. Ensuite, nous avons présenté nos deux nouvelles approches de suivi de formants dont la première est basée sur l'estimation des crêtes de Fourier (maxima de spectrogramme) ou des crêtes d'ondelettes (maxima de scalogramme) en utilisant comme contrainte de suivi le calcul de centre de gravité de la combinaison des fréquences candidates pour chaque formant, tandis que la deuxième approche de suivi est basée sur la programmation dynamique combinée avec le filtrage de Kalman. Finalement, nous avons fait une étude exploratrice en utilisant notre corpus étiqueté manuellement comme référence pour évaluer quantitativement nos deux nouvelles approches par rapport à d'autres méthodes automatiques de suivi de formants. Nous avons testé la première approche par détection des crêtes ondelette, utilisant le calcul de centre de gravité, sur des signaux synthétiques ensuite sur des signaux réels de notre corpus étiqueté en testant trois types d'ondelettes complexes (CMOR, SHAN et FBSP). Suite à ces différents tests, il apparaît que le suivi de formants et la résolution des scalogrammes donnés par les ondelettes CMOR et FBSP sont meilleurs qu'avec l'ondelette SHAN. Afin d'évaluer quantitativement nos deux approches, nous avons calculé la différence moyenne absolue et l'écart type normalisée. Nous avons fait plusieurs tests avec différents locuteurs (masculins et féminins) sur les différentes voyelles longues et courtes et la parole continue en prenant les signaux étiquetés issus de la base élaborée comme référence. Les résultats de suivi ont été ensuite comparés à ceux de la méthode par crêtes de Fourier en utilisant le calcul de centre de gravité, de l'analyse LPC combinée à des bancs de filtres de Mustafa Kamran et de l'analyse LPC dans le logiciel Praat. D'après les résultats obtenus sur les voyelles /a/ et /A/, nous avons constaté que le suivi fait par la méthode ondelette avec CMOR est globalement meilleur que celui des autres méthodes Praat et Fourier. Cette méthode donne donc un suivi de formants (F1, F2 et F3) pertinent et plus proche de suivi référence. Les résultats des méthodes Fourier et ondelette sont très proches dans certains cas puisque toutes les deux présentent moins d'erreurs que la méthode Praat pour les cinq locuteurs masculins ce qui n'est pas le cas pour les autres voyelles où il y a des erreurs qui se présentent parfois sur F2 et parfois sur F3. D'après les résultats obtenus sur la parole continue, nous avons constaté que dans le cas des locuteurs masculins, les résultats des deux nouvelles approches sont notamment meilleurs que ceux de la méthode LPC de Mustafa Kamran et ceux de Praat même si elles présentent souvent quelques erreurs sur F3. Elles sont aussi très proches de la méthode par détection de crêtes de Fourier utilisant le calcul de centre de gravité. Les résultats obtenus dans le cas des locutrices féminins confirment la tendance observée sur les locuteurs
Published: 2013

153. Tones and intonation: some current challenges

Author: Alexis Michaud, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Rudolph Sock, Susanne Fuchs & Yves Laprie, and Michaud, Alexis
Subjects: intonation, prosody, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, tones, [SHS.LANGUE] Humanities and Social Sciences/Linguistics
Abstract: International audience; It is well established that lexical tones and intonation are not mutually exclusive. Moreover, the presence or absence of lexical tones in a language does not by itself constitute a fundamental typological divide for intonation systems. Two dimensions of typological diversity are brought out: (i) concerning lexical tone systems, it is suggested that the analysis of contour tones into sequences of levels, which has clearly demonstrated its validity for numerous languages, does not actually apply to all; (ii) concerning intonation systems, it is suggested that languages differ in whether – and to what extent – they have ‘intonational tones', i.e. tones of intonational origin that are structurally similar to lexical tones. ‘Intonational tones' strictly speaking appear to be relatively rare.A hypothesis is set out concerning the relationship between the nature of the lexical tone system of a language and that of its intonation system: it is suggested that the encoding of intonational phenomena in terms of tones tends to thrive in languages that have a lexical system of level tones – by a process of tonal reinterpretation of intonation –whereas languages that have non-decomposable contour tones tend not to have tonal intonation.
Published: 2008

154. Speech Planning for V1CV2 Sequences: Influence of the Planned Sequence

Author: Perrier, Pascal, Ma, Liang, GIPSA - Acoustique, Aéroacoustique, Biomécanique et Contrôle (GIPSA-AABC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), P2R - CNRS - MAE - DFG (POPAART), Rudolph Sock, Susanne Fuchs, Yves Laprie, POPAART, Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), and Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)
Subjects: Speech production, [SPI.OTHER]Engineering Sciences [physics]/Other, Coarticulation, [SCCO.NEUR]Cognitive science/Neuroscience, Syllable, Speech planning, Speech motor control, [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, Speech sequence
Abstract: International audience; The paper studies the potential influence of the structure of a language (in terms of phonological units) on the anticipatory coarticulation. It is hypothesized that speech gestures are optimally planned and that the size of the planned sequence is influenced by language constraints. The status of the syllable is studied via simulations with a speech production model and experimental data.
Published: 2008

155. The use of sensory feedback in the adaptation of perturbed /s

Author: Brunner, J., Hoole, P., Pascal Perrier, GIPSA - Acoustique, Aéroacoustique, Biomécanique et Contrôle (GIPSA-AABC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Zentrum für Allgemeine Sprachwissenschaft [Berlin] (ZAS), Bundesministerium für Bildung und Forschung-Deutsche Forschungsgemeinschaft - German Research Foundation (DFG), Institute of Phonetics and Speech Processing (IPS), Ludwig-Maximilians-Universität München (LMU), P2R - CNRS - MAE - DFG (POPAART), Rudolph Sock, Susanne Fuchs, Yves Laprie, POPAART, and Perrier, Pascal
Subjects: Speech Task, [SCCO.NEUR]Cognitive science/Neuroscience, [SCCO.NEUR] Cognitive science/Neuroscience, [SCCO.LING] Cognitive science/Linguistics, ddc:400, [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, behavioral disciplines and activities, psychological phenomena and processes, Speech Production, Phonetik, Speech Perturbation
Abstract: The study investigates the contribution of tactile and auditory feedback in the adaptation of /s/ towards a palatal prosthesis. Five speakers were recorded via electromagnetic articulography, at first without the prosthesis, then with the prosthesis and auditory feedback masked, and finally with the prosthesis and auditory feedback available. Tongue position, jaw position and acoustic centre of gravity of productions of the sound were measured. The results show that the initial adaptation attempts without auditory feedback are dependent on the prosthesis type and directed towards reaching the original tongue palate contact pattern. Speakers with a prosthesis which retracted the alveolar ridge retracted the tongue. Speakers with a prosthesis which did not change the place of the alveolar ridge did not retract the tongue. All speakers lowered the jaw. In a second adaptation step with auditory feedback available speakers reorganised tongue and jaw movements in order to produce more subtle acoustic characteristics of the sound such as the high amplitude noise which is typical for sibilants.
Published: 2008

156. Collecting Traces of Activity in Orofacial Muscles during Auditory Verbal Hallucinations in Schizophrenic Patients

Author: Rapin, Lucile, Loevenbruck, Hélène, Dohen, Marion, Polosan, Mircea, Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), GIPSA - Parole, Multimodalité, Développement (GIPSA-PMD), Département Parole et Cognition (GIPSA-DPC), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Service de Psychiatrie, CHU Grenoble, Rudolph Sock, Susanne Fuchs & Yves Laprie, Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), and Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)
Subjects: electroglottography, vocal monitoring, schizophrenia, electromyography, schizophrénie, [SCCO.NEUR]Cognitive science/Neuroscience, auditory verbal hallucinations, électroglottographie, [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, hallucinations auditives verbales, suivi vocal, électromyographie
Abstract: International audience; Schizophrenia is one of the most frequent and severe mental disorders. Among the typical symptoms of schizophrenia are auditory verbal hallucinations (AVH). Inner speech dysfunction is often incriminated in the pathogenesis of AVH. The long term aim of our research is to collect EMG and EGG data on schizophrenic patients during AVH, to examine the inner speech dysfunction hypothesis. In this methodological paper, we validate an experimental protocol which will be applied in this aim.
Published: 2008

157. Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

Author: Robert, Vincent, Laprie, Yves, Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université Henri Poincaré - Nancy I, and Yves Laprie(Yves.Laprie@loria.fr)
Subjects: [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], parole, speech, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], tête parlante, coarticulation, talking head
Abstract: This thesis comes within the scope of talking heads. We are particularly interested in the prediction of labial and jaw coarticulation movements. After analyzing intra and inter speaker variability using two corpora, we defined a prediction algorithm for anticipatory coarticulation based on phonetic rules which takes into account interactions between articulators. We then proposed a solution to estimate labial and jaw movements using a one speaker corpus. It consists in concatenating elementary VC...CV sequences selected by our prediction algorithm and either extracted from the corpus or rebuilt by completion. We modeled articularory movements using sigmoids which offer the advantage of considerably reducing the model size and which are adaptable to speaking rate or articulatory strategies. Additionally, sigmoids are able to keep distinctive contrasts between neighboring segments as well as intrinsic characteristics of the sounds. With the aim of estimating the quality of our synthesis process, we measured differences between real and predicted data for all the sentences of the corpus and we compared our solution with Cohen and Massaro's algorithm. It turns out that our solution is better for specific VCCV sequences in which anticipation is more complex., Cette thèse s'inscrit dans une étude sur la modélisation d'une tête parlante destinée à améliorer l'intelligibilité du message transmis. A partir du signal sonore notre but est d'animer un visage synthétique afin par exemple de permettre la lecture labiale. Les mouvements des lèvres et de la mâchoire dépendent fortement du phénomène de coarticulation qui peut être anticipatif ou rétentif (progressif). Si beaucoup s'accordent à penser que rétentif est essentiellement inertiel, de nombreux modèle théoriques et expérimentaux rentrent en concurrence au sujet de l'anticipation. Afin d'essayer de clarifier ce phénomène, nous avons enregistré deux corpus audiovisuels (mono et multilocuteur) nous permettant d'obtenir des informations tridimensionnelles sur un ensemble de marqueurs peints sur le visage des locuteurs. Quatre paramètres articulatoires liés aux lèvres et à la mâchoire ont retenu notre attention. Après avoir analysé les variations intra et interlocuteur, nous avons défini un algorithme de prédiction de la coarticulatìon anticipatrice basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires à partir de l'algorithme de prédiction précédent. Notre solution permet d'estimer avec précision les mouvements des lèvres et de le mâchoire de n'importe quelle séquence en nous basant sur les informations contenues dans un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui sont soit extraites du corpus, soit obtenues par complétion. Une des originalités de notre méthode est le choix des sigmoïdes pour caractériser les mouvements articulatoires. Ceci a 1'avantage de réduire considérablement la taille du modèle construit et permet de s'adapter facilement à des vitesses d'é1ocution ou des stratégies articulatoires particulières. Un autre point fort de notre méthode est de prendre en considération à la fois l'effet paradigmatique qui correspond aux caractéristiques intrinsèques des sons, mais aussi l'effet syntagmatique qui permet de conserver les contrastes entre les sons dans un énoncé. Afin d'estimer la qualité de notre synthèse coarticulatoire, nous avons ensuite mesuré les différences entre les signaux réels et les signaux synthétisés sur 1'ensemble des phrases de notre corpus. Nous avons également comparé nos résultats avec ceux obtenus après synthèse avec la technique de prédiction de la coarticulatíon de Cohen et Massaro qui avait obtenu les meilleurs scores statistiques selon une ancienne étude comparative. Si la méthode de Cohen et Massaro obtient globalement de meilleurs résultats que notre solution, nous avons montré que ce n'est pas le cas pour toutes les séquences. En particulier, notre synthèse est meilleure pour les VCCV où l'anticipation est davantage marquée.
Published: 2008

158. Modélisation de la coarticulation labiale : mise en oeuvre sur une tête parlante

Author: Robert, Vincent, UL, Thèses, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Henri Poincaré - Nancy 1, Yves Laprie, Anne Bonneau, and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Parole-Modèles mathématiques, [SPI.OTHER] Engineering Sciences [physics]/Other, Coarticulation, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Tête parlante, Traitement automatique de la parole, Articulation temporomandibulaire
Abstract: This thesis comes within the scope of talking heads. We are particularly interested in the prediction of labial and jaw coarticulation movements. After analyzing intra and inter speaker variability using two corpora, we defined a prediction algorithm for anticipatory coarticulation based on phonetic rules which takes into account interactions between articulators. We then proposed a solution to estimate labial and jaw movements using a one speaker corpus. It consists in concatenating elementary VC...CV sequences selected by our prediction algorithm and either extracted from the corpus or rebuilt by completion. We modeled articulatory movements using sigmoids which offer the advantage of considerably reducing the model size and which are adaptable to speaking rate or articulatory strategies. Additionally, sigmoids are able to keep distinctive contrasts between neighboring segments as well as intrinsic characteristics of the sounds. With the aim of estimating the quality of our synthesis process, we measured differences between real and predicted data for all the sentences of the corpus et we compared our solution with Cohen and Massaro 's algorithm. It turns out that our solution is better for specific VCCV sequences in which anticipation is more complex., Cette thèse s'inscrit dans une étude sur l'élaboration d'une tête parlante. Nous nous intéressons tout particulièrement à la prédiction du mouvement de coarticulation des lèvres et de la mâchoire. Après avoir analysé les variations intra et interlocuteur des paramètres labiaux de deux corpora audiovisuels, nous avons conçu un algorithme de prédiction de la coarticulation basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires des lèvres et de la mâchoire en utilisant un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui ont été jugées pertinentes par notre algorithme de prédiction phonétique, et qui sont soit extraites du corpus, soit obtenues par complétion. Nous avons modélisé les mouvements articulatoires par des sigmoïdes qui offrent l'avantage de réduire considérablement la taille du modèle construit et permettent de s'adapter facilement à des vitesses d'élocution ou des stratégies articulatoires particulières tout en conservant les contrastes distinctifs entre les sons successifs et leurs caractéristiques intrinsèques. Afin d'estimer la qualité de notre synthèse, nous avons mesuré les différences entre les signaux réels et synthétisés sur l'ensemble des phrases du corpus et nous avons comparé notre solution avec l'algorithme de Cohen et Massaro. Nous avons montré que notre synthèse est meilleure pour certaines séquences spécifiques de type VCCV où l'anticipation est plus complexe.
Published: 2008

159. Inversion acoustique-articulatoire avec contraintes

Author: Potard, Blaise, Laprie, Yves, Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université Henri Poincaré - Nancy 1, and Yves Laprie
Subjects: analyse de la parole, parole, speech, articulatoire, speech analysis, articulatory processing, [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], [INFO.INFO-HC] Computer Science [cs]/Human-Computer Interaction [cs.HC]
Abstract: This thesis investigates acoustic-to-articu1atory inversion, i.e. recovering articulatory movements from the speech signal. In this work, we present an important evolution of codebooks methods, i.e. methods using acoustic-articulatory tuples precomputed using an acoustic synthesis model. Apart from the inversion method, we present the introduction of two types of constraints: generic phonetic constraints, derived from the analysis by human experts of articulatory invariance for vowels, and visual constraints, i.e. constraints derived automatically from a video signal, in our case a stereo video signal, thus allowing us to perform multimodal inversion., Cette thèse porte sur l'ínversion acoustique-articulatoire, c'est-à-dire la récupération des mouvements des articulateurs de la parole à partir du signal sonore. Nous présentons dans ce mémoire une évolution importante des méthodes de tabulation à codebooks utilisant une table de correspondants acoustique-articulatoire précalculée à l'aide d'un modèle de synthèse acoustique. En dehors de la méthode d'inversion proprement dite, nous présentons également l'introduction de deux types de contraintes : des contraintes phonétiques génériques, issues de l'analyse par des experts humains de l'invariance articulatoire des voyelles, et des contraintes visuelles, c'est-à-dire des contraintes obtenues automatiquement à partir de l'enregistrement et l'analyse d'images en stéréovision du locuteur.
Published: 2008

160. Do Speakers' Vocal Tract Geometries Shape their Articulatory Vowel Space?

Author: Susanne Fuchs, Winkler, R., Perrier, P., Perrier, Pascal, Rudolph Sock, Susanne Fuchs, Yves Laprie, Zentrum für Allgemeine Sprachwissenschaft [Berlin] (ZAS), Bundesministerium für Bildung und Forschung-Deutsche Forschungsgemeinschaft - German Research Foundation (DFG), GIPSA - Acoustique, Aéroacoustique, Biomécanique et Contrôle (GIPSA-AABC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), P2R-CNRS-MAR-DFG (POPAART), and POPAART
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, Speech motor control, Interspeaker variability, [SPI.OTHER] Engineering Sciences [physics]/Other, [SCCO.NEUR]Cognitive science/Neuroscience, [SCCO.NEUR] Cognitive science/Neuroscience, [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, [SCCO.LING] Cognitive science/Linguistics, Vocal tract morphology, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, Speech Production
Abstract: International audience; This study investigates the relation between para¬meters describing differences between speaker-speci¬fic vocal tract geometries and articulatory distances between the corner vowels based on MRI data of 9 French speakers. Results provide evidence that speaker with a longer pharynx produce larger displacements between low back and high front vowels. Preliminary modeling results are also presented with the aim to study the relation between motor commands, articulation and acoustics
Published: 2008

161. Reconnaissance automatique des actes de dialogue

Author: Kral, Pavel, Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Département de l'informatique (ZCU-FAV), Université de Bohème de l'Ouest, Université Henri Poincaré - Nancy 1, Yves Laprie (laprie@loria.fr), and Kral, Pavel
Subjects: dialogue act, prosody, reconnaissance de la parole, dialog act, language model, speech recognition, [INFO.INFO-MO] Computer Science [cs]/Modeling and Simulation, prosodie, [INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation, cte de dialogue, modèle du language
Abstract: This thesis deals with automatic Dialogue Act (DA) recognition in Czech and in French. Dialogue acts are sentence-level labels that represent different states of a dialogue, such as questions, statements, hesitations, etc.The first main contribution of this work is to propose and compare several approaches that recognize dialogue acts based on three types of information: lexical, prosodic and word positions. These approaches are tested on the Czech Railways corpus that contains human-human dialogues, which are transcribed both manually and with an automatic speech recognizer for comparison. The experimental results confirmed that every type of feature (lexical, prosodic and word positions) bring relevant and somewhat complementary information. The proposed methods that take into account word positions are especially interesting, as they bring global information about the structure of a sentence, at the opposite of traditional n-gram models that only capture local cues.One of the main issue in the domain of automatic dialogue act recognition concerns the design of a fast and cheap method to label new corpora. The next main contribution is to apply the general semi-supervised training approach based on the Expectation Maximization algorithm to the task of labeling a new corpus with the pre-defined DAs. We further proposed to filter out the examples that might be incorrect by two confidence measures, namely the maximum a posteriori probability and the a posteriori probability difference methods. Experimental results showed that the proposed method is an efficient approach to create new dialogue act corpora at low costs., Ce mémoire concerne la reconnaissance automatique des Actes de Dialogues (ADs) en tchéque et en français. Les actes de dialogues sont des unités au niveau de la phrase qui représentent des différents états d'un dialogue, comme par exemple les questions, les affirmations, les hésitations, etc. La première contribution de ce travail est de proposer et comparer plusieurs approches de reconnaissance des actes de dialogues qui sont basées sur trois types d'informations : lexical, prosodique et relative à la position des mots dans une phrase. Ces approches ont eté testées sur un corpus tchèque de dialogues entre utilisateurs et personnel dans le domaine de la réservation de billets de chemins de fer. Ce corpus a été transcris en mots manuellement, et avec un moteur de reconnaissance automatique afin de valider les approches dans des conditions réelles. Les résultats expérimentaux confirment que chaque type d'attributs (lexical, prosodique et syntaxique de position) apporte des informations pertinentes et complémentaires. Les méthodes proposées qui exploitent la position des mots dans la phrase sont particulièrement intéresantes, parce qu'elles utilisent une information globale sur la structure de la phrase, alors que les modèles statistiques traditionnels de type n-gram modélisent seulement les dépendances locales.Une autre contribution conséquente, relative au manque de corpus étiquettés dans le domaine de la reconnaissance automatique des actes de dialoques, concerne le développement et l'étude de méthodes d'étiquetage semi-automatique de nouveaux corpus. Cette méthode est basée sur l'algorithme d'Espérance-Maximisation avec des ADs prédéfinis spécifiques à la tâche visée. Nous proposons deux mesures de confiance pour sélectionner les exemples qui ont le plus de chance d'être classifiés correctement : une mesure utilisant le critère de maximisation de la probabilité a posteriori, et une autre exploitant un critère basé sur une différence de probabilités a posteriori. Les résultats expérimentaux démontrent que la méthode proposée est une approche intéressante pour la création de nouveaux corpus d'actes de dialogues à moindre coût.
Published: 2007

162. Techniques d'analyse et de synthèse de la parole appliquées à l'apprentissage des langues

Author: Colotte, Vincent, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Henri Poincaré - Nancy 1, Yves Laprie, Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and UL, Thèses
Subjects: [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Parole -- Aspect physiologique, Reconnaissance automatique de la parole, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Traitement du signal-Simulation par ordinateur, Synthèse automatique de la parole
Abstract: Nowadays when exchanges between people are more and more international, foreign language grasp is becoming essential. The computer-assisted language learning seems to be a new stake. In particular, the improvement of oral comprehension constitutes one of keys to control a language. To improve intelligibility, I work out a first strategy based on selective slowing down of speech signal. The transitory parts - regions of high acoustic cue concentration - turns out to be privileged candidates to the slowing down. The detection of these regions is based on the computation of a coefficient which reflects spectrum variation rate. I work out a second strategy which enhances relevant events of speech, i.e. that its amplification improves intelligibility. This strategy is based on the preservation of phonetic contrasts, in particular between voiced and unvoiced consonants. Thus, I developed an algorithm of detection of unvoiced plosives and unvoiced fricatives from criteria on energy. Two experiments of perception have been carried out to validate these strategies of intelligibility improvement: the first, preliminary, with French listeners on American sentences and the second with foreign students (learning French as foreign language) on French sentences. At last, to modify the prosodic elements (rhythm, intensity, fundamental frequency), my work was based on PSOLA method (Pitch Synchronous OverLap and Add). I work out an algorithm of pitch marking and I improve the accuracy of synthesis method. These strategies are totally automatic and allow to improve intelligibility of speech signal in the framework of language learning., A l'heure où les échanges entre les individus ne cessent de s'internationaliser, la maîtrise d'une langue étrangère devient peu à peu indispensable. L'apprentissage d'une langue assisté par ordinateur apparaît comme un nouvel enjeu. En particulier, l'amélioration de compréhension orale constitue l'une des clés de la maîtrise d'une langue. Pour améliorer l'intelligibilité, j'ai élaboré une première stratégie basée sur le ralentissement sélectif du signal de parole. Les parties transitoires, de forte concentration d'indices acoustiques, se révèlent être des candidats privilégiés pour le ralentissement. La détection de ces régions est basée sur le calcul d'un coefficient reflétant le taux de variation du spectre. J'ai élaboré une seconde stratégie consistant à renforcer les évènements pertinents de la parole c'est-à-dire ceux dont l'amplification améliore l'intelligibilité. J'ai basé ma stratégie sur le principe de préservation des oppositions phonétiques, notamment entre les consonnes voisées et non-voisées. Ainsi, j'ai développé un algorithme de détection des bursts et des fricatives sourdes à partir de critères énergétiques. Des expériences de perception ont validé les stratégies d'amélioration de l'intelligibilité : une préliminaire avec des français sur des phrases américaines (TIMIT) et une seconde avec des étudiants étrangers (apprenant le français comme langue étrangère) sur des phrases françaises (BDSON).Enfin, pour réaliser ces modifications prosodiques (rythme, intensité, fréquence fondamentale), je me suis appuyé sur la méthode PSOLA. J'ai élaboré un algorithme de marquage de la période du fondamental et amélioré la précision de la méthode de synthèse. La mise en oeuvre de ces stratégies est totalement automatique et cette approche permet d'améliorer l'intelligibilité d'un signal de parole dans le cadre de l'apprentissage d'une langue.
Published: 2002

163. Modélisation de l'espace articulatoire par un codebook hypercubique pour l'inversion acoustico-articulatoire

Author: Ouni, Slim, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Henri Poincaré - Nancy 1, Yves Laprie, UL, Thèses, and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Phonétique acoustique, Reconnaissance automatique de la parole, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Traitement automatique de la parole, Voix -- Aspect physiologique
Abstract: In this thesis, we deal with the inversion of the articulatory-to-acoustic relation, i.e. given an acoustic signal we want to recover the trajectories of the corresponding articulatory parameters. For this purpose, we have to resolve three problems : modelling articulatory space by hypercubes, retrieving all the solutions, and recovering articulatory trajectories varying slowly. Our inversion method is based on the representation of the articulatory space by a hypercube codebook. This representation has the advantage of decomposing the articulatory space into regions where the mapping is quasi-linear. Each region is represented by a hypercube. The inversion procedure retrieves articulatory vectors corresponding to an acoustic entry from the hypercube codebook. As the dimension of the articulatory space is greater than the dimension of the acoustic space, the corresponding null space is sampled by linear programming to retrieve all the possible solutions. Retrieving articulatory trajectories is performed in two steps. We use non-linear smoothing method based on dynamic programming followed by smoothing with a variation al method. We have succeeded to retrieve smooth and realistic articulatory trajectories, which is confirmed by the experimental evaluation., L'objectif de la thèse est de développer une méthode d'inversion afin de récupérer toutes les formes réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l'évolution temporelle des paramètres articulatoires. Notre méthode d'inversion repose en grande partie sur la représentation de l'espace articulatoire sous la forme d'un codebook hypercubique. Ce codebook est constitué d'hypercubes représentant des régions de dimension sept par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré de non-linéarité de la relation articulatoire-acoustique. Lors de l'inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode d'exploration de l'espace nul de l'hypercube qui permet alors d'obtenir une description complète de l'ensemble des solutions. Après l'étape d'inversion point à point, il est possible de trouver les trajectoires articulatoires qui correspondent à une variation lente des paramètres articulatoires et cohérentes d'un point de vue phonétique. Dans ce but, nous proposons une méthode de lissage non-linéaire basée sur une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l'aide d'une méthode variationnelle qui minimise la distance acoustique et assure la régularité de l'évolution des paramètres articulatoires.
Published: 2001

164. Development of lingual displacement independence at babbling stage

Author: Mélanie Canault, Rafael Laboissière, Pascal Perrier, Rudolph Sock, AABC (GIPSA-AABC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA), Institut de Phonétique de Strasbourg E.A. 3403 (IPS), Université Marc Bloch - Strasbourg II, Max Planck Institute for Human Cognitive and Brain Sciences Department of Psychology (MAX PLANCK INSTITUTE), Max-Planck-Institut, Espace et action, Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Hospices Civils de Lyon (HCL)-Institut National de la Santé et de la Recherche Médicale (INSERM), Rudolph Sock, Susanne Fuchs, Yves Laprie, GIPSA - Acoustique, Aéroacoustique, Biomécanique et Contrôle (GIPSA-AABC), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), and Perrier, Pascal
Subjects: stomatognathic system, Babbling, [SCCO.NEUR]Cognitive science/Neuroscience, [SCCO.NEUR] Cognitive science/Neuroscience, Speech acquisition, Speech motor control, [SCCO.LING] Cognitive science/Linguistics, [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, [SHS.LANGUE] Humanities and Social Sciences/Linguistics
Abstract: International audience; In this study, we recorded jaw movements and the acoustic signal of 15 babies of 8 to 12 months of age during babbling in order to assess the hypothesis whereby tongue gestures would be more independent from mandibular ones with age. Results corroborate our expectations. We have shown that increase in the amplitude of tongue gestures in the anterior/posterior dimension, in relation to vertical jaw movement, is noticeable in older babies. This reveals emergence of articulatory control in babies throughout the babbling stage.

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

164 results on '"Yves Laprie"'

151. Synthèse Acoustico-Visuelle de la Parole par Séléction d'Unités Bimodales

152. Formant tracking via a multiresolution analysis

153. Tones and intonation: some current challenges

154. Speech Planning for V1CV2 Sequences: Influence of the Planned Sequence

155. The use of sensory feedback in the adaptation of perturbed /s

156. Collecting Traces of Activity in Orofacial Muscles during Auditory Verbal Hallucinations in Schizophrenic Patients

157. Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

158. Modélisation de la coarticulation labiale : mise en oeuvre sur une tête parlante

159. Inversion acoustique-articulatoire avec contraintes

160. Do Speakers' Vocal Tract Geometries Shape their Articulatory Vowel Space?

161. Reconnaissance automatique des actes de dialogue

162. Techniques d'analyse et de synthèse de la parole appliquées à l'apprentissage des langues

163. Modélisation de l'espace articulatoire par un codebook hypercubique pour l'inversion acoustico-articulatoire

164. Development of lingual displacement independence at babbling stage

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Database

Publisher

164 results on '"Yves Laprie"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources