1. Sound change and neural networks: preliminary experiments
- Author
-
Fourrier, Clémentine, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, and Schneider, Stéphane
- Subjects
cognate predict ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Prédiction de cognats ,Changements phonétiques ,Réseaux de neurones ,historical ling ,Regular sound c ,Linguistique historique ,neural networks ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Cognate prediction is a key task in historical linguistics that presents a number of similarities withmachine translation. However, although neural methods are now widespread in machine translation,they are still largely unused in historical linguistics. In this paper, we study the performance ofneural methods (more specifically encoder-decoder networks) for the task of cognate prediction. Wefocus in particular on the types of data that can be used for this task, and compare the performanceof statistical and neural methods. We show that sound correspondances can only be learned usingcognate datasets, and that statistical and neural methods seem to have complementary strengths andweaknesses regarding what they learn about the data., La prédiction de cognats est une tâche clef de la linguistique historique et présente de nombreuses similitudes avec les tâches de traduction automatique. Cependant, alors que cette seconde discipline a vu fleurir l’utilisation de méthodes neuronales, celles-ci restent largement absentes des outils utilisés en linguistique historique. Dans ce papier, nous étudions donc la performance des méthodes neuronales utilisées en traduction (les réseaux encodeur-décodeur) pour la tâche de prédiction de cognats. Nous nous intéressons notamment aux types de données utilisables pour cet apprentissage et comparons les résultats obtenus, sur différents types de données, entre des méthodes statistiques et des méthodes neuronales. Nous montrons que l’apprentissage de correspondances phonétiques n’est possible que sur des paires de cognats, et que les méthodes statistiques et neuronales semblent avoir des forces et faiblesses complémentaires quant à ce qu’elles apprennent des données.
- Published
- 2020