Start Over

Architectures neuronales bout-en-bout pour la compréhension de la parole

Authors :: Valentin Pelloin
Nathalie Camelin
Antoine Laurent
Renato De Mori
Sylvain Meignier
Pelloin, Valentin
Intelligence artificielle pour la compréhension du langage parlé contrôlée sémantiquement - - AISSPER2019 - ANR-19-CE23-0004 - AAPG2019 - VALID
Publication Year :: 2022
Publisher :: HAL CCSD, 2022.
Abstract: In this paper, we focus on end-to-end architectures designed to tackle spoken language understanding problems. We propose encoder-decoder architectures with an attention mechanism that focuses on relevant contextual acoustic features to hypothesize semantic contents. A first architecture has been built in order to extract pronounced words and concepts from speech. Tested on the M EDIA dataset, it obtains good results, and combined with a language model, it lowers the error by 2.8 points from the state-of-the-art results with end-to-end systems. With this same architecture, we propose a new configuration allowing to predict both concepts and their values. Lastly, a new architecture is proposed, composed of multiple chained decoders for a single encoder. With this architecture, we aim to improve the decoder with both linguistic and acoustic informations.<br />Dans cet article, nous nous intéressons au problème de la compréhension de la parole et à sa résolution dans le cadre d'architectures dites bout-en-bout. Les différentes architectures proposées, basées sur des modèles neuronaux encodeurs-décodeurs avec mécanisme d'attention permettent d'émettre des hypothèses de contenus sémantiques directement à partir des caractéristiques acoustiques. Une première architecture a été conc ¸ue afin d'extraire à la fois les mots prononcés et les concepts. Testée sur le corpus MEDIA, elle permet une réduction d'erreur en absolu de 2,8 points par rapport à l'état de l'art. Avec cette même architecture, nous proposons une configuration originale permettant d'émettre également des hypothèses sur les valeurs des concepts. Enfin, une architecture composée de plusieurs décodeurs neuronaux chaînés pour un seul encodeur est testée dans l'objectif d'enrichir le décodeur d'informations linguistiques en plus des informations acoustiques.