1. Constitution d'un corpus oral de l'arabe tunisien : une ressource essentielle pour l'étiquetage morphosyntaxique
- Author
-
Ben Ahmed, Yossra, Badin, Flora, Hriba, Linda, Badin, Flora, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), and Université d'Orléans (UO)
- Subjects
Tunisian Arabic ,annotation ,corpus oraux ,étiquetage morphosyntaxique ,arabe tunisien ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,oral corpora ,transcription ,part-of-speech tagging ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
The constitution of an oral corpus of Tunisian Arabic for the analysis of the expressions of future raised several problems : datacollection, transcription and annotation. After presenting the theoretical and methodological stakes for each step of the process,we will show how our corpus can be used as a resource for the creation of a morphosyntactic tagger of transliterated TunisianArabic. Giving access to such corpora and tools will facilitate the research on a poorly documented language and will opennew perspectives of language processing., La constitution d'un corpus oral d'arabe tunisien pour l'analyse des expressions du futur a soulevé plusieurs problématiques : collecte des données, transcription et annotation. Après avoir exposé les enjeux théoriques et méthodologiques de chaque phase de traitement nous montrerons en quoi notre corpus servira de ressource pour la création d'un étiqueteur morphosyntaxique de l'arabe tunisien translittéré. Disposer et rendre accessible de tels corpus et outil faciliteront les recherches sur cette langue peu dotée et ouvriront de nouvelles perspectives de traitement.
- Published
- 2018