Back to Search
Start Over
The Indigenous Languages Technology project at NRC Canada: an empowerment-oriented approach to developing language software
- Source :
- COLING
- Publication Year :
- 2020
- Publisher :
- International Committee on Computational Linguistics, 2020.
-
Abstract
- This paper describes a three-year project at the National Research Council of Canada aimed at developing software to assist Indigenous communities in their efforts to preserve their languages and extend their use. The project aimed to work within the empowerment paradigm, where the linguistic goals of communities have at least equal weight with those of the researchers, and where collaboration with communities is central. Because many of the technological directions we took were in response to community needs, the project ended up as a collection of diverse subprojects, including the creation of a sophisticated framework for building verb conjugators for highly inflectional polysynthetic languages (a verb conjugator for Kanyen’kéha, in the Iroquoian language family, was built in the framework), release of what is probably the largest available corpus of sentences in a polysynthetic language (Inuktut) aligned with English sentences and experiments with machine translation (MT) systems trained on this corpus, free online services based on automatic speech recognition (ASR) for easing the transcription bottleneck for recordings of speech in Indigenous languages (and other languages), limited-domain text-to-speech synthesis for some Indigenous languages, and several other subprojects.<br />Ce rapport technique décrit un projet de trois ans au Conseil national de recherches du Canada pour le développement de logiciels visant à soutenir les communautés autochtones dans leurs efforts de préservation et de revitalisation de leurs langues. Ce projet s’efforce de respecter le principe de l’autonomisation : l’importance accordée aux objectifs linguistiques des communautés est supérieure ou égale à celle accordée à ceux des chercheurs et la collaboration avec les communautés est centrale. Puisque beaucoup des orientations technologiques ont été choisies en réponse aux besoins des communautés, le projet a donné lieu à divers sous-projets, notamment : la création d’une plateforme pour créer des conjugueurs pour les langues polysynthétiques hautement flexionnelles (un conjugueur pour la langue iroquoienne kanyen'kéha a été développé à l’aide de cette plateforme); la publication d’un corpus bilingue inuktut–anglais, qui est probablement le plus grand corpus de phrases disponible pour une langue polysynthétique; un projet d’expérimentation de la traduction automatique entrainée sur ce corpus; des services en ligne gratuits basés sur la reconnaissance de la parole automatique pour soulager le goulot d’étranglement de la transcription des enregistrements en langues autochtones; un projet sur l’utilisation de la synthèse vocale à domaine restreint pour certaines langues autochtones; et plusieurs autres sous-projets.
- Subjects :
- 030505 public health
Machine translation
Computer science
business.industry
media_common.quotation_subject
Iroquoian language
Verb
02 engineering and technology
computer.software_genre
Indigenous
World Wide Web
03 medical and health sciences
Software
Polysynthetic language
0202 electrical engineering, electronic engineering, information engineering
020201 artificial intelligence & image processing
Transcription (software)
0305 other medical science
Empowerment
business
computer
media_common
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Journal :
- COLING
- Accession number :
- edsair.doi.dedup.....9627dc3cdc6226aaef4b066aa19a4341