15 results on '"Documentation linguistique"'
Search Results
2. Corpus linguistics for low-density varieties. Minority languages and corpus-based morphological investigations
- Author
-
Livio Gaeta, Marco Angster, Raffaele Cioffi, and Marco Bellante
- Subjects
préfixes verbaux ,inflectional verb classes ,clitic pronouns ,cultural heritage, minority languages, language documentation, verb prefixes, clitic pronouns, inflectional verb classes ,patrimoine culturel ,corpus linguistics ,minority languages ,pronoms clitiques ,classes de flexion verbale ,corpus linguistics, minority languages, cultural heritage ,cultural heritage ,language documentation ,verb prefixes ,General Earth and Planetary Sciences ,documentation linguistique ,langues minoritaires ,General Environmental Science - Abstract
Corpus linguistics grew up in the domain of written (and literary) varieties, while its recent methodological revolution is due to the computer-assisted capacity of elaborating massive amounts of text data. On the other hand, the so-called ‘low-density varieties’, including spoken varieties as well as varieties spoken in minority communities, have been confined to a rather marginal role. Among others, this is due to the technical problems connected to the scarce degree of normalization in linguistic –including graphemic– terms, as well as to the scarcity of language resources for automatic processing. In this paper, we will exploit the possibilities opened by corpus linguistics for acquiring and analyzing the textual patrimony of the Walser German communities of Piedmont and Aosta Valley. The varieties of Highest Alemannic spoken there, dramatically exposed to language decay, provide a limited but significant amount of data, which is accompanied by a substantial lexical documentation due to the active collaboration of the speakers’ communities in collecting and compiling local dictionaries. After briefly introducing our archive and discussing the peculiar solutions adopted for the construction of the platform, we will also present corpus-based morphological investigations regarding the representation of verbal prefixes, of the clitic group, as well as of the inflectional behaviour of verb classes. La linguistique de corpus s’est développée dans le cadre des variétés écrites (et littéraires), tandis que sa récente révolution méthodologique est due à la capacité assistée par ordinateur d’élaborer des quantités massives de données textuelles. D’autre part, les variétés dites ‘à faible densité’ comprenant les variétés parlées ainsi que les variétés parlées dans les communautés minoritaires, ont été confinées à un rôle plutôt marginal. Cela est dû, entre autres, aux problèmes techniques liés au faible degré de normalisation en termes linguistiques, y compris graphémiques, de ces variétés ainsi qu’à la rareté des ressources linguistiques pour leur traitement automatique. Dans cet article, nous allons exploiter les possibilités offertes par la linguistique de corpus pour acquérir et analyser le patrimoine textuel des communautés allemandes Walser du Piémont et de la Vallée d’Aoste. Les variétés d’alémanique supérieur qui y sont parlées, dramatiquement exposées à des processus avancés de décadence linguistique, fournissent une quantité limitée mais significative de données, qui s’accompagne d’une documentation lexicale substantielle due à la collaboration active des communautés dans la collecte et la compilation de dictionnaires locaux. Après une brève présentation de nos archives et la discussion des solutions particulières adoptées pour la construction de la plate-forme, nous présenterons également des investigations morphologiques basées sur corpus concernant la représentation des préfixes verbaux, du groupe clitique, ainsi que du comportement flexionnel des classes de verbes.
- Published
- 2022
3. Language Documentation and Standards in Digital Humanities: TEI and the documentation of Mixtepec-Mixtec
- Author
-
Bowers, Jack, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), École Pratique des Hauts Études, and Laurent Romary
- Subjects
Mixtepec-Mixtec ,mixtèque de mixtepec ,Linguistics ,TEI ,[SCCO.LING]Cognitive science/Linguistics ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,Documentation linguistique ,Language Documentation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Digital Humanities ,Linguistique ,Corpus Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanités numériques ,Linguistique sur corpus - Abstract
This dissertation concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas.The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language.Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields.; Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-1000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’état d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’état de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les états d’Oregon, Floride, et Arkansas.Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagiers pour la langue sous licence ouverte, et la communauté des locateurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de documentation linguistiques par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnole, anglais); une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI; une description sommaire des caractéristiques linguistiques et lexicales.En raison de l’étendue des données et des ressources produites au cours de ce travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrit dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.
- Published
- 2020
4. Presentative demonstratives in Kambaata from a Cushitic perspective
- Author
-
Treis, Yvonne, Langage, LAngues et Cultures d'Afrique (LLACAN), Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Isabelle Leblic, Lameen Souag, Labex EFL, and Langage, LAngues et Cultures d'Afrique Noire (LLACAN)
- Subjects
Demonstratives ,Cushitic ,Verbal demonstratives ,présentatifs ,couchitique ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Language documentation ,démonstratifs ,démonstratif verbal ,Presentative demonstratives - Abstract
Article based on a presentation given at the International conference "Du terrain à la théorie : Les 40 ans du Lacito", 15-17 November 2016, Villejuif (France); International audience; This article is the first study of presentative demonstratives in a Cushitic language. It closes a gap in the grammatical documentation of Kambaata (Highland East Cushitic) and analyzes in detail the morphology and the functions of presentative demonstratives (‘here s/he is!’). In the Cushitic context, the Kambaata presentative system stands out as unique in its morphological complexity: Kambaata presentative demonstratives are marked for three deictic dimensions, and in each deictic dimension two genders and two numbers are distinguished, which amounts to 12 functionally distinct forms, plus 12 free or dialectal variants. The presentatives cannot be morphologically derived from other (adjectival, pronominal) demonstrative types. Kambaata is not the only Cushitic language with presentatives but traces of this demonstrative type are difficult to come by. The article is able to present the first evidence for the existence of presentative demonstratives in Hadiyya, Gedeo, Sidaama and Oromo.; Cet article est la première étude de démonstratifs présentatifs dans une langue couchitique. Il comble une lacune dans la documentation grammaticale du kambaata et analyse en détail la morphologie et les fonctions des démonstratifs présentatifs (« Le/la voilà ! »). Dans le contexte couchitique, le système présentatif du kambaata se distingue par sa complexité morphologique unique : les démonstratifs présentatifs en kambaata distinguent trois dimensions déictiques et, dans chaque dimension déictique, les démonstratifs sont marqués pour deux genres et deux nombres, ce qui correspond à douze formes fonctionnellement distinctes, auxquelles s’ajoutent douze variantes libres ou dialectales. Les présentatifs ne peuvent être morphologiquement dérivés d'autres types démonstratifs (par ex., des adjectifs ou pronoms). Le kambaata n'est pas la seule langue couchitique à avoir des démonstratifs présentatifs. Bien qu’il soit difficile de trouver des traces dans la documentation existante, l’article parvient à présenter les premières preuves de l’existence de ce type de démonstratifs en hadiyya, gedeo, sidaama et oromo.
- Published
- 2020
5. Reflections on Linguistic Fieldwork Within Moribund Speech Communities
- Author
-
Florian Siegl
- Subjects
History ,terrain linguistique ,langues moribondes ,Field (Bourdieu) ,Perspective (graphical) ,Linguistics ,linguistic fieldwork ,moribund languages ,keelte dokumenteerimine ,väljasurevad keele ,language documentation ,Personal experience ,documentation linguistique ,keelelisi välitöid - Abstract
Whereas linguists conducting fieldwork tend to be a minority among linguists, linguists conducting fieldwork among the last speakers of an underresearched/underdocumented or even undocumented language are a minority within a minority. Although a number of fieldwork manuals have been published in recent decades, the perspective of fieldwork in extreme sociolinguistic situations such as among the last speakers of a language is usually underrepresented in the literature. It is precisely this perspective which will be presented by shedding some light on personal experiences and challenges from ongoing work on two moribund languages Forest Enets (Samoyedic, Uralic) and Ume Saami (Saami, Uralic). These impressions are contrasted with personal experiences from fieldwork and consultant work on other languages such as Dolgan and Tuvin (both Turkic), Taimyr Tundra Nenets (Samoyedic, Uralic) as well as Meithei (Sino‑Tibetan) and Tundra Yukaghir (isolate). A central claim of this article is to show that work with extremely endangered languages does not allow any meaningful equation; field sites are unique and working with speakers of moribund languages in different countries may mean very different things and imply highly diverging challenges—what works in field site X does not necessarily work in field site Y and vice versa. Alors que les linguistes de terrain ont tendance à être une minorité dans leur discipline, ceux qui font leurs terrains parmi les derniers locuteurs de langues sous-étudiées, sous-documentées, voire non documentées sont encore une minorité de la minorité. Même si un certain nombre de manuels de terrain ont été publiés dans les dernières décennies, la perspective du terrain dans des situations sociolinguistiques extrêmes comme c’est le cas parmi les derniers locuteurs d’une langue est en général sous-représenté dans la littérature existante. C’est cette perspective qui fait l’objet du présent article à partir d’une expérience personnelle d’un travail sur le terrain, ainsi que de consultations sur des langues aussi diverses que le dolgane et le touvinien (toutes deux turciques), le nénetse de la toundra parlé dans le Tajmyr (une langue samoyède, ouralienne) ainsi que le meithei (langue sino-tibétaine) et le youkaghir de la toundra (isolat). L’un des principaux objectifs de cet article est de montrer que la notion de langues en danger extrême ne recouvre jamais les mêmes paramètres, chaque site est unique, et travailler avec les derniers locuteurs d’une langue dans des pays différents peut signifier des activités fort différentes et présenter des défis fort divers – ce qui fonctionne sur un site x peut ne pas fonctionner sur un site y et vice-versa. Kui välitöid harrastavad keeleteadlased on keeleteadlaste hulgas vähemus, need kes teevad välitöid viimaste inimeste juures, kes kõnelevad alauuritud, aladokumenteeritud või üldse mitte dokumenteeritut keelt on veel vähemuse vähemus. Kuigi viimaste aastakümnete jooksul on ilmunud mõned välitöö õpikud, ekstreemsed olukorrad, mis tekivad töötades viimaste keelekõnelejatega, käsitletakse harva olemasolevas kirjanduses. Selles on jutt käesolevad artiklis isikliku kogemuse põhjal, nii välitöödes kui ka konsultandiks olemisest erinevate keelte jaoks – dolgaani ja tuva keeled (mõlemad türgi keelkonnast), Taimõri tundraneenetsi keel (samojeedi, uurali keel) kui ka meithei (sino-tibeti keel) ja tundrajukagiiri keel (isoleeritud keel). Sele artikli üks peamistest eesmärkidest on näidata, kuidas ekstreemselt ohustatute keelte mõiste kunagi ei kata samasuguseid reaalsusi: iga tööväli on unikaalne, ja viiaste keelekõnelejatega töötamine võib tähendada väga erinevaid asju erinevatel riikidel ning esitada väga erinevaid väljakutseid – see, mis toimib ühel alal ei pruugi toimida mujal.
- Published
- 2019
6. Language Documentation and Standards in Digital Humanities: TEI and the documentation of Mixtepec-Mixtec
- Author
-
Jack Bowers, Austrian Academy of Sciences (OeAW), Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL), École pratique des hautes études (EPHE), École Pratique des Hauts Études, Laurent Romary, and Bowers, Jack
- Subjects
Linguistics and data processing ,Corpus linguistics ,Mixtepec-Mixtec ,mixtèque de mixtepec ,[SCCO.COMP]Cognitive science/Computer science ,Linguistics ,TEI ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,[SCCO.LING]Cognitive science/Linguistics ,Documentation linguistique ,Language documentation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Linguistique ,[SCCO.COMP] Cognitive science/Computer science ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Linguistics annotation ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,[SCCO.LING] Cognitive science/Linguistics ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanités numériques ,Linguistique sur corpus ,Digital humanities - Abstract
This dissertation concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas.The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language.Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields.; Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-1000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’état d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’état de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les états d’Oregon, Floride, et Arkansas.Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagiers pour la langue sous licence ouverte, et la communauté des locateurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de documentation linguistiques par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnole, anglais); une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI; une description sommaire des caractéristiques linguistiques et lexicales.En raison de l’étendue des données et des ressources produites au cours de ce travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrit dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.
- Published
- 2019
7. Phonemic transcription of low-resource tonal languages
- Author
-
Adams, Oliver, Cohn, Trevor, Neubig, Graham, Michaud, Alexis, University of Melbourne, Carnegie Mellon University [Pittsburgh] (CMU), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Wong, Sze-Meng Jojo, Haffari, Gholamreza, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, and Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID
- Subjects
Automatic language processing ,Oral literature ,Interdisciplinarity ,Automatic speech recognition ,Multimedia corpora ,Open access ,Language documentation ,Documentation linguistique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Open-source software ,Transcription automatique ,Online databases ,Automatic speech transcription ,Traitement automatique de la parole ,Sound archives ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Endangered languages ,Transcription phonémique - Abstract
International audience; Transcription of speech is an important part of language documentation, and yet speech recognition technology has not been widely harnessed to aid linguists. We explore the use of a neural network architecture with the connectionist temporal classification loss function for phonemic and tonal transcription in a language documentation setting. In this framework, we explore jointly modelling phonemes and tones versus modelling them separately, and assess the importance of pitch information versus phonemic context for tonal prediction. Experiments on two tonal languages, Yongning Na and Eastern Chatino, show the changes in recognition performance as training data is scaled from 10 minutes to 150 minutes. We discuss the findings from incorporating this technology into the linguistic workflow for documenting Yongning Na, which show the method's promise in improving efficiency, minimizing typographical errors, and maintaining the transcription's faithfulness to the acoustic signal, while highlighting phonetic and phonemic facts for linguistic consideration.
- Published
- 2017
8. Analyzing prosodic systems in East Asia: linguistic fieldwork and experimental phonetics
- Author
-
Michaud, Alexis, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Université Lumière - Lyon 2, François Pellegrino, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID, PROJET AVENIR LYON SAINT-ETIENNE - - Avenir L.S.E.2011 - ANR-11-IDEX-0007 - IDEX - VALID, and Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID
- Subjects
linguistique de terrain ,Naish languages ,Austroasiatic languages ,langues vietiques ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Vietic languages ,langues naish ,linguistic fieldwork ,langues sino-tibétaines ,language documentation ,langue austroasiatique ,phonétique expérimentale ,Sino-Tibetan languages ,experimental phonetics ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
In the present-day French university system, Habilitation à Diriger les Recherches (meaning “accreditation to supervise research”) is a post-doctoral qualification conferred for a thesis accompanied by selected publications, and defended in a process similar to that of a doctoral dissertation. Accordingly, my application for Habilitation comprises (i) ten publications and (ii) a memoir, entitled “Analyzing prosodic systems in East Asia: linguistic fieldwork and experimental phonetics”, which presents my research since completion of my Ph. D. (2005) and sketches out perspectives for future work and for the supervision of younger scholars’ research., Comme il est d’usage, le présent dossier soumis en vue de l’Habilitation à Diriger les Recherches présente les travaux réalisés depuis le doctorat (2006-2016) et esquisse des orientations futures pour mes recherches et pour l’encadrement de jeunes chercheurs. La synthèse des travaux réalisés est organisée selon cinq axes : linguistique de terrain, phonétique expérimentale et phonologie théorique, prosodie, phonétique historique, et enfin méthodologie. Dix publications sont jointes au dossier. Parmi celles-ci, la principale est une monographie au sujet du système tonal d’une langue sino-tibétaine, le na de Yongning.
- Published
- 2017
9. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Alexis Michaud, Séverine Guillaume, Guillaume Jacques, Đăng-Khoa Mạc, Michel Jacobson, Thu-Hà Phạm, Matthew Deo, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), and ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010)
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
International audience; This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections.; La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
10. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Michaud, Alexis, Guillaume, Séverine, Jacques, Guillaume, Mạc, Đăng-Khoa, Jacobson, Michel, Phạm, Thu-Hà, Deo, Matthew, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, and Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections., La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
11. Koroshi : A Corpus-based Grammatical Description
- Author
-
Nourzaei, Maryam, Jahani, Carina, Anonby, Erik, and Ahangar, Abbas Ali
- Subjects
Koroshi ,Balochi ,Studier av enskilda språk ,corpus linguistics ,langues iraniennes ,récits oraux ,muntliga berättelser ,korpuslingvistik ,Iranska språk ,oral narratives ,Specific Languages ,linguistique de corpus ,language documentation ,Iranian languages ,Balochiska ,språkdokumentation ,documentation linguistique - Abstract
The Korosh people are scattered across large areas of southern Iran, from Hormozgan all the way to Khuzestan, and onto the Iranian plateau. This group, which numbers over 10,000 people, is found in significant concentrations near Bandar Abbas in Hormozgan Province, in north-western Fars Province around Shiraz, and across the southern part of Fars Province. Although oral accounts situate the provenance of the Korosh in Balochistan, and their language is closely related to southern varieties of Balochi, they have a distinct identity. Some affirm a historical and ethnic connection to the Baloch, but others view themselves as an autonomous tribe; in north-western Fars Province, members of the group maintain an affiliation with the larger Qašqā’i tribal confederacy. The present work contributes to the study of the Korosh through the lens of their language, Koroshi. The corpus for this study has been gathered among speakers of the dialect of Koroshi spoken around Shiraz. The book opens with a brief overview of the Korosh people and their culture. The main part of the study consists of an in-depth, corpus-based description of the phonology and morphosyntax of the Koroshi language; a corpus of seven glossed and translated texts of different genres; and a glossary of more than 1200 items. This documentation is supplemented with a CD containing soundfiles of the texts, a searchable PDF of the book, and images of the Koroshi community.
- Published
- 2015
12. Linguistiques d'intervention : les dimensions socio-politiques de la linguistique écologique
- Author
-
Lechevrel, Nadège, Centre de Linguistique Anthropologique et Sociolinguistique - Institut Marcel Mauss (LIAS - IMM), École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS), and Lazcano, Elisabeth
- Subjects
[SHS.HISPHILSO]Humanities and Social Sciences/History, Philosophy and Sociology of Sciences ,Ecological linguistics ,endangered languages ,usages doctrinaires de l’écologie ,[SHS.HISPHILSO] Humanities and Social Sciences/History, Philosophy and Sociology of Sciences ,language documentation ,dogmatic ecology ,langues en danger ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Linguistique écologique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Most ecological approaches in linguistics use concepts borrowed from biological ecology, environmental philosophy or political ecology in an attempt to analyze language change and language evolution. This article discusses the relationship between ecological dogmatism and the fields of endangered languages, language documentation, or linguistic typology., La linguistique écologique rassemble une multitude de courants empruntant distinctement à l’écologie biologique, à la philosophie écologiste ou à l’écologie politique pour analyser les langues et le langage. Cet article présente les travaux de linguistes dans le domaine des langues en danger et de la documentation linguistique ainsi que ceux, plus diffus, de linguistes typologistes et de chercheurs ayant étudié les liens entre langues et environnement ; il contribue ainsi à la discussion portant sur la perméabilité (ou non) des sciences du langage aux doctrines socio-politiques (ici, aux doctrines écologistes) et sur la complexité des rapports triadiques entre linguistes, communautés linguistiques et institutions.
- Published
- 2014
13. Exploring Language in a Multilingual Context
- Author
-
Bettina Migge, Isabelle LEGLISE, Structure et Dynamique des Langues (SeDyL), Centre National de la Recherche Scientifique (CNRS)-Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135, University College Dublin [Dublin] (UCD), and Léglise, Isabelle
- Subjects
[SHS.ANTHRO-SE] Humanities and Social Sciences/Social Anthropology and ethnology ,multilingualism ,language contact ,linguistic ideologies ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,idéologies ,anthropologie linguistique ,plurilinguisme ,language documentation ,linguistic anthropology ,contacts de langues ,variation ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
This book proposes a new methodological approach to documenting languages spoken in multilingual and socially and linguistically heterogeneous and dynamic contexts. Tracing the investigation of one unique linguistic space, the English-lexified creole language called Takitaki in multilingual French Guiana, the book illustrates how interactional sociolinguistic, discourse analytical and quantitative sociolinguistic approaches can be fruitfully integrated with structural approaches to language in order to systematically resolve dicey but rarely theorised/discussed questions (what are the outlines of the community, who is a rightful speaker, what speech to document etc) that frequently crop up in projects of language documentation in multilingual contexts. The authors argue that comprehensively documenting complex linguistic phenomena requires taking into account the views of all local social actors (speakers, institutions, linguists, non-speakers etc), applying a range of complementary data collection and analysis methods and putting issues of ideology, variation, language contact and interaction centre stage.phenomena requires taking into account the views of all local social actors (speakers, institutions, linguists, non-speakers etc), applying a range of complementary data collection and analysis methods and putting issues of ideology, variation, language contact and interaction centre stage.
- Published
- 2012
- Full Text
- View/download PDF
14. Creoles in Contact in French Guiana & Suriname: Implications for Language Documentation
- Author
-
Isabelle LEGLISE, Bettina Migge, Structure et Dynamique des Langues (SeDyL), Centre National de la Recherche Scientifique (CNRS)-Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135, University College Dublin [Dublin] (UCD), and Léglise, Isabelle
- Subjects
Suriname ,contact de langues ,language documentation ,Creoles ,language contact ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Guyane ,French Guiana - Abstract
Creoles often exits in contexts characterized by multilingualism: what are said to be members of a creole community tend to have varying degrees of exposure to the Creole and other languages present, different levels of competence in each language and partially different attitudes towards them. Language use patterns are equally variable among community members and across social settings. As in most Africa settings, heterogeneity represents the norm rather than the exception. Viewed from this perspective, the notion of a language as a solid, self-contained and distinct system predominantly used for transmitting referential meaning which does not interact with other such entities with which it physically coexists appears like a fiction. However, despite mounting evidence, linguistic description and documentation tends to shy away from dealing with the consequences of this evidence. The aim of this paper is to chart new approaches to documenting languages that place linguistic heterogeneity and language variation and change at the centre rather than at the periphery. Based on a case study of language variation and linguistic practices relating to the Creoles of Suriname in French Guiana and Suriname, we emphasize two main aspects: a) people engage with (context-based) practices which together constitute a system of communication that is linguistically heterogeneous and may not be made up of what linguists call a language and b) depending on their social practices and ideologies, people's system of practices may involve a fair bit of variation even among members who perceive themselves as belonging to the same social entity/community. Based on evidence from our case study, we propose that empirically accountable language documentation must adopt a multi-methodological approach to language description, including a comprehensive analysis of the linguistic context, linguistic structure AND linguistic practice. Notions like language, 'good, rightful/representative' speaker, community and their relationship are not givens, but have to be critically examined within the context. Greater attention must be paid to community-as-value (Coupland 2009) to fully capture language and a language. Descriptions should be representative of the practices characterizing the speech community and be defined or deduced in a bottom up manner. Among other things, this crucially involves taking into account the practices of ALL language users regardless of how and when they learned and use the language as restricting research and documentation to (some) people who learned it as a language of primary socialization produces socially and linguistically unrepresentative grammars.
- Published
- 2011
15. Conservation des langues et partage des ressources : le rôle des chercheurs dans la mise en place de banques de données
- Author
-
Michaud, Alexis, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Michaud, Alexis
- Subjects
base de données ,endangered languages ,langues rares ,databases ,langues menacées ,corpus oraux ,minority languages ,corpus ,corpora ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,phonothèque ,enregistrements ,conservation des langues ,language documentation ,recordings ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,databases of spoken language ,language preservation ,sound library - Abstract
Looking back at a century of speech recording, the legacy is not as extensive—and nowhere as tidy—as the layman would think. Research centres seldom keep track of the recordings made by their researchers. This paper, focusing primarily on endangered languages data, argues that a network of sound libraries associated with university libraries and research centres should be set up to build and disseminate corpora, following certain quality standards. Researchers could then have access to databases that would reflect the variety of research purposes as well as the variety of the world's languages., La réflexion part d'un constat paradoxal: les bases de données sonores abritées par les centres de recherches en phonétique sont relativement peu développées. Les centres de recherche assurent rarement le suivi des documents enregistrés par leurs chercheurs. Le présent article, qui se place principalement du point de vue de la conservation des langues en danger, présente une réflexion sur le rôle que pourraient jouer des « phonothèques universitaires », centres de diffusion mais aussi de création de bases de données.
- Published
- 2002
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.