1. Plongement multilingue non supervisée basé sur le mapping monolingue pour la traduction automatique neuronale des langues faiblement dotées
- Author
-
Atangana Ongolo, Martin Rodrigue, Melatagia Yonta, Paulin, Département d'Informatique [Yaoundé], Faculté des Sciences - Yaoundé I, Université de Yaoundé I-Université de Yaoundé I, Unité de modélisation mathématique et informatique des systèmes complexes [Bondy] (UMMISCO), and Université de Yaoundé I-Institut de la francophonie pour l'informatique-Université Cheikh Anta Diop [Dakar, Sénégal] (UCAD)-Université Gaston Bergé (Saint-Louis, Sénégal)-Université Cadi Ayyad [Marrakech] (UCA)-Sorbonne Université (SU)-Institut de Recherche pour le Développement (IRD [France-Nord])
- Subjects
Multilingual word embedding ,Neural machine translation ,Neural networks ,low resources languages ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Limited data resources are the current problem for neural machine translation of low resources languages. In this paper we propose to use multilingual embedding as a method of representing words as input to a neural machine translator. This approach is then compared to word representation approaches in monolingual context used in the literature for neural machine translation. The results with multilingual embedding on a dataset of 7187 pairs of French-Ewondo parallel verses of the bible are promising because they are better than those obtained with the representation approaches used so far. We obtained 8.77% of blue for the unsupervised multilingual embedding,5.34% for the semi-supervised version and finally 4.92% for the word embedding with the skipgram architecture.; Les ressources de données limitées sont le problème actuel de la traduction automatique neuronale des langues à faibles ressources. Dans cet article, nous proposons d'utiliser le plongement multilingue comme méthode de représentation des mots en entrée d'un traducteur neuronal. Cette approche est ensuite comparée aux approches de représentation de mots en contexte monolingue utilisées dans la littérature pour la traduction automatique neuronale. Les résultats avec le plongement multilingue sur un jeu de données de 7187 paires de versets parallèles français-éwondo de la bible sont prometteurs car ils sont meilleurs que ceux obtenus avec les approches de représentation utilisées jusqu'à présent. Nous avons obtenu 8,77% de bleu pour le plongement multilingue non supervisé, 5,34% pour la version semi-supervisée et enfin 4,92% pour le plongement de mots avec l'architecture skipgram.
- Published
- 2023