Back to Search Start Over

End-to-End Automatic Speech Translation of Audiobooks

Authors :
Laurent Besacier
Alexandre Berard
Olivier Pietquin
Ali Can Kocabiyikoglu
Laboratoire d'Informatique de Grenoble (LIG )
Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP )
Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Institut Universitaire de France (IUF)
Ministère de l'Education nationale, de l’Enseignement supérieur et de la Recherche (M.E.N.E.S.R.)
DeepMind Technologies
Sequential Learning (SEQUEL)
Inria Lille - Nord Europe
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL)
Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)
ANR-14-CE24-0016,KEHATH,Méthodes qualité avancées pour la post-édition de traduction automatique(2014)
ANR-11-LABX-0025,PERSYVAL-lab,Systemes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011)
Laboratoire d'Informatique de Grenoble ( LIG )
Université Pierre Mendès France - Grenoble 2 ( UPMF ) -Université Joseph Fourier - Grenoble 1 ( UJF ) -Institut National Polytechnique de Grenoble ( INPG ) -Centre National de la Recherche Scientifique ( CNRS ) -Université Grenoble Alpes ( UGA )
Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole ( GETALP )
Université Pierre Mendès France - Grenoble 2 ( UPMF ) -Université Joseph Fourier - Grenoble 1 ( UJF ) -Institut National Polytechnique de Grenoble ( INPG ) -Centre National de la Recherche Scientifique ( CNRS ) -Université Grenoble Alpes ( UGA ) -Université Pierre Mendès France - Grenoble 2 ( UPMF ) -Université Joseph Fourier - Grenoble 1 ( UJF ) -Institut National Polytechnique de Grenoble ( INPG ) -Centre National de la Recherche Scientifique ( CNRS ) -Université Grenoble Alpes ( UGA )
Institut Universitaire de France ( IUF )
Ministère de l'Éducation nationale, de l’Enseignement supérieur et de la Recherche ( M.E.N.E.S.R. )
Sequential Learning ( SEQUEL )
Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189 ( CRIStAL )
Ecole Centrale de Lille-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS ) -Ecole Centrale de Lille-Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS )
Source :
ICASSP 2018-IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2018-IEEE International Conference on Acoustics, Speech and Signal Processing, Apr 2018, Calgary, Alberta, Canada, ICASSP
Publication Year :
2018
Publisher :
HAL CCSD, 2018.

Abstract

We investigate end-to-end speech-to-text translation on a corpus of audiobooks specifically augmented for this task. Previous works investigated the extreme case where source language transcription is not available during learning nor decoding, but we also study a midway case where source language transcription is available at training time only. In this case, a single model is trained to decode source speech into target text in a single pass. Experimental results show that it is possible to train compact and efficient end-to-end speech translation models in this setup. We also distribute the corpus and hope that our speech translation baseline on this corpus will be challenged in the future.<br />Accepted to ICASSP 2018 (poster presentation)

Details

Language :
English
Database :
OpenAIRE
Journal :
ICASSP 2018-IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2018-IEEE International Conference on Acoustics, Speech and Signal Processing, Apr 2018, Calgary, Alberta, Canada, ICASSP
Accession number :
edsair.doi.dedup.....4b215710c725e41bd264fe8791c1c3e7