Back to Search Start Over

Contribution de l'approche multi-bandes à la reconnaissance automatique de la parole

Authors :
Cerisara, Christophe
Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA)
Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)
Institut National Polytechnique de Lorraine
Jean-Paul Haton
Dominique Fohr
Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
UL, Thèses
Source :
Autre [cs.OH]. Institut National Polytechnique de Lorraine, 1999. Français. ⟨NNT : 1999INPL077N⟩
Publication Year :
1999
Publisher :
HAL CCSD, 1999.

Abstract

Non disponible / Not available<br />Le travail de recherche présenté dans ce mémoire réalise l'étude d'une nouvelle architecture pour les systèmes de reconnaissance automatique de la parole. Cette architecture est basée sur un découpage du spectre du signal en plusieurs zones fréquentielles, éventuellement recouvrantes, et sur un traitement indépendant de chacune de ces «bandes». Celles-ci sont ensuite recombinées afin de fournir une réponse unique au problème de la reconnaissance. L'utilisation de cette méthode dite « Multi-Bandes » est à l'origine motivée par les travaux du psycho-acousticien H. Fletcher, travaux qui ont été récemment reconsidérés par J. B. Allen et qui aboutissent à un modèle de l'audition humaine proche de ce principe. L'application de celui-ci à une tâche de reconnaissance automatique de la parole est généralement motivée par sa robustesse aux bruits limités fréquentiellement. Nous montrons dans ce mémoire qu'il possède d'autres avantages, moins attendus, comme la résistance à tous les types de bruits stationnaires, et qu'il peut également surpasser le système de référence dans des environnements non bruités.Ce mémoire commence par présenter les travaux existant dans le domaine du « Multi-Bandes », puis réalise une étude préliminaire du comportement de chacune des bandes. Ensuite, le problème du choix du module de recombinaison est posé, et plusieurs solutions sont proposées et testées. De même, nous montrons qu'il n'est pas possible d'utiliser l'algorithme classique de Viterbi en reconnaissance continue lorsque les bandes sont asynchrones, et différentes autres possibilités sont étudiées. Nous proposons ainsi deux algorithmes permettant de recombiner les bandes soit en fin de phrase, soit après des segments temporels associés à des unités de parole, comme les phonèmes.

Details

Language :
French
Database :
OpenAIRE
Journal :
Autre [cs.OH]. Institut National Polytechnique de Lorraine, 1999. Français. ⟨NNT : 1999INPL077N⟩
Accession number :
edsair.dedup.wf.001..8f2f8dc0efe89e36688b2eacb11eb2e2