34 results on '"Documentation linguistique"'
Search Results
2. Corpus linguistics for low-density varieties. Minority languages and corpus-based morphological investigations
- Author
-
Livio Gaeta, Marco Angster, Raffaele Cioffi, and Marco Bellante
- Subjects
préfixes verbaux ,inflectional verb classes ,clitic pronouns ,cultural heritage, minority languages, language documentation, verb prefixes, clitic pronouns, inflectional verb classes ,patrimoine culturel ,corpus linguistics ,minority languages ,pronoms clitiques ,classes de flexion verbale ,corpus linguistics, minority languages, cultural heritage ,cultural heritage ,language documentation ,verb prefixes ,General Earth and Planetary Sciences ,documentation linguistique ,langues minoritaires ,General Environmental Science - Abstract
Corpus linguistics grew up in the domain of written (and literary) varieties, while its recent methodological revolution is due to the computer-assisted capacity of elaborating massive amounts of text data. On the other hand, the so-called ‘low-density varieties’, including spoken varieties as well as varieties spoken in minority communities, have been confined to a rather marginal role. Among others, this is due to the technical problems connected to the scarce degree of normalization in linguistic –including graphemic– terms, as well as to the scarcity of language resources for automatic processing. In this paper, we will exploit the possibilities opened by corpus linguistics for acquiring and analyzing the textual patrimony of the Walser German communities of Piedmont and Aosta Valley. The varieties of Highest Alemannic spoken there, dramatically exposed to language decay, provide a limited but significant amount of data, which is accompanied by a substantial lexical documentation due to the active collaboration of the speakers’ communities in collecting and compiling local dictionaries. After briefly introducing our archive and discussing the peculiar solutions adopted for the construction of the platform, we will also present corpus-based morphological investigations regarding the representation of verbal prefixes, of the clitic group, as well as of the inflectional behaviour of verb classes. La linguistique de corpus s’est développée dans le cadre des variétés écrites (et littéraires), tandis que sa récente révolution méthodologique est due à la capacité assistée par ordinateur d’élaborer des quantités massives de données textuelles. D’autre part, les variétés dites ‘à faible densité’ comprenant les variétés parlées ainsi que les variétés parlées dans les communautés minoritaires, ont été confinées à un rôle plutôt marginal. Cela est dû, entre autres, aux problèmes techniques liés au faible degré de normalisation en termes linguistiques, y compris graphémiques, de ces variétés ainsi qu’à la rareté des ressources linguistiques pour leur traitement automatique. Dans cet article, nous allons exploiter les possibilités offertes par la linguistique de corpus pour acquérir et analyser le patrimoine textuel des communautés allemandes Walser du Piémont et de la Vallée d’Aoste. Les variétés d’alémanique supérieur qui y sont parlées, dramatiquement exposées à des processus avancés de décadence linguistique, fournissent une quantité limitée mais significative de données, qui s’accompagne d’une documentation lexicale substantielle due à la collaboration active des communautés dans la collecte et la compilation de dictionnaires locaux. Après une brève présentation de nos archives et la discussion des solutions particulières adoptées pour la construction de la plate-forme, nous présenterons également des investigations morphologiques basées sur corpus concernant la représentation des préfixes verbaux, du groupe clitique, ainsi que du comportement flexionnel des classes de verbes.
- Published
- 2022
3. Bảng từ EFEO-CNRS-SOAS dùng cho nghiên cứu điền dã ngôn ngữ học ở Đông Nam Á
- Author
-
Frederic Pain, Michel Ferlus, Alexis Michaud, Thị Thu Hà Phạm, Ryan Gehrmann, NGUYEN Minh-Chau, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Vietnam National University - Department of Linguistics (VNU-USSH), Vietnam National University [Hanoï] (VNU), Payap University, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010), ANR-19-CE38-0015,CLD2025,La documentation computationnelle des langues à l'horizon 2025(2019), Speech Communication, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), Michaud, Alexis, Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID, and La documentation computationnelle des langues à l'horizon 2025 - - CLD20252019 - ANR-19-CE38-0015 - AAPG2019 - VALID
- Subjects
[SHS.ANTHRO-SE] Humanities and Social Sciences/Social Anthropology and ethnology ,CNRS ,Asie du Sud-Est ,EFEO ,dialectologie ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,linguistic documentation ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,word list ,Southeast Asia ,SOAS ,dialectology ,linguistic fieldwork ,multilingual resources ,ressources multilingues ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,liste de vocabulaire - Abstract
This word list aims to allow researchers (i) to conduct in-depth lexical investigation when doing fieldwork on languages of Southeast Asia, and (ii) to navigate between languages and dialects, through the use of a unique identifier for each lexical entry. The first version of this word list was created by Ecole Française d'Extrême-Orient (EFEO) for a broad investigation launched in 1938 and interrupted by the war in 1940. A second version of the word list was elaborated at the CNRS laboratory CeDRASEMI (Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien). This overhaul was supervised by Lucien Bernot, probably between 1960 et 1970; the list was jointly prepared by the Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien (EPHE-CNRS, Paris) and the Department of South Asia and Oceania of the School of Oriental Studies (University of London) with a view to creating an Ethnolinguistic Atlas of Southeast Asia. Michel Ferlus re-typed the 22-page list to adopt a format suitable for use in the field. As the list remained insufficiently comprehensive for in-depth linguistic fieldwork, Michel Ferlus added further items in the course of his field trips to Vietnam in the 1990s. This list was circulated among Michel Ferlus's colleagues and collaborators. Khmer glosses were added, based on a version of the CeDRASEMI-SOAS list to which Marie Martin had added Khmer glosses. Version 1 of the present document was updated at the International Research Institute MICA in 2013-2014. Chinese glosses were added; English glosses were supplemented; and Vietnamese glosses were revised. The word list is offered online in Open Office format (.ods) and MS-Excel format (.xlsx). In Version 2 (2016), the full set of English translations was checked. In Version 3 (2019), Central Thai, Northern Thai, Lao and Burmese translations were added.In Version 4 (2022), Tibetan translations were added., Cette liste numérotée vise à permettre aux chercheurs de naviguer entre les langues et les dialectes recueillis au fil des ans et sur tous les terrains d'Asie du Sud-Est. La première version de ce lexique a été élaborée par l'Ecole Française d'Extrême-Orient (EFEO) pour une vaste enquête lancée en 1938 et interrompue par la guerre en 1940. L'EFEO en a imprimé une quantité sous la forme de petits fascicules, distribués aux fonctionnaires envoyés en mission par l'administration coloniale (Questionnaire linguistique, Hanoi: Imprimerie d'Extrême-Orient, 1938). Une deuxième version a été élaborée au laboratoire CeDRASEMI du CNRS (Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien). Lucien Bernot a été la cheville ouvrière de cette amélioration qui a dû se faire entre 1960 et 1970. Cette version était décrite comme un "Questionnaire linguistique préparé conjointement par le Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien (EPHE-CNRS, Paris) et le Département d'Asie du Sud-Est et d'Océanie de la School of Oriental Studies (University of London) en vue de l'établissement d'un Atlas ethnolinguistique de l'Asie du Sud-Est". Michel Ferlus a re-tapé cette liste pour en faire des cahiers d'enquête commodes à remplir sur le terrain. Comme cette liste restait insuffisante pour une bonne utilisation linguistique, Michel Ferlus l'a augmentée au cours de ses enquêtes au Vietnam dans les années 1990. Cette liste a été enrichie de gloses en khmer, en partie fondées sur la version de la liste CeDRASEMI-SOAS annotée en khmer par Marie Martin. La première version du présent document a été réalisée à l'Institut de recherche international MICA à partir de 2013. Les ajustements principaux ont été les suivants: une nouvelle numérotation a été établie, pour faciliter l'emploi de la liste; des gloses en chinois ont été ajoutées ; les gloses en anglais ont été complétées; et les gloses en vietnamien ont été intégralement révisées. La liste de vocabulaire est mise à libre disposition en ligne au format Open Office (.ods). Dans la version 2 (2016), les gloses anglaises ont été intégralement revues par une équipe coordonnée par Ryan Gehrmann. Dans la version 3 (2019) ont été ajouté le thai central, le thai du Nord, le lao et le birman.Dans la version 4 (2022) a été ajouté le tibétain.
- Published
- 2022
4. Entre politique identitaire et narrations autobiographiques. Restitutions numériques d’un projet de documentation linguistique en Bolivie (Projet DoBeS Yurakaré 2006-2011)
- Author
-
Vincent Hirtzel, Centre National de la Recherche Scientifique (CNRS), Laboratoire d'ethnologie et de sociologie comparative (LESC), and Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Cultural Studies ,060102 archaeology ,restitution numérique ,Yurakaré ,Estado Plurinacional ,030229 sport sciences ,06 humanities and the arts ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,linguistic documentation ,16. Peace & justice ,État plurinational ,03 medical and health sciences ,autobiografía ,0302 clinical medicine ,13. Climate action ,Anthropology ,autobiographie ,autobiography ,restitución digital ,documentación lingüística ,digital restitution ,Plurinational State ,0601 history and archaeology ,documentation linguistique ,ComputingMilieux_MISCELLANEOUS - Abstract
Los yurakarés de la Amazonía boliviana influyeron de diversas formas en el proyecto de documentación lingüística DoBeS en el que el autor participó. Por un lado, el material digital recopilado ha sido devuelto en discos duros a varias de sus organizaciones políticas y educativas. Esta restitución global formó parte de un proceso de construcción de una identidad yurakaré “nacional”, resultado de las transformaciones estructurales de Bolivia en Estado Plurinacional. Por otra parte, este proyecto de documentación contó con la colaboración de tres locutores que acordaron grabar materiales de carácter autobiográfico. El artículo se enfoca en este subcorpus en relación con los desafíos de la restitución global, tomando en cuenta su contenido, sus destinatarios, así como los problemas de circulación involucrados. Esta comparación saca a la luz una muestra de experimentos reflexivos que serán objeto de un boceto comparativo con otros ejemplos de proyectos DoBeS que tuvieron lugar en Brasil (Alto Xingú). Les Yurakaré d’Amazonie bolivienne ont infléchi de différentes manières le projet de documentation linguistique DoBeS auquel l’auteur a participé. D’un côté, les matériaux recueillis ont été l’objet d’une restitution numérique sur disques durs à plusieurs de leurs organisations politiques et éducatives. Cette restitution globale s’inscrit dans un processus de construction d’une identité « nationale » yurakaré résultant elle-même des transformations structurelles de la Bolivie en État plurinational. Par ailleurs ce projet de documentation a bénéficié de la collaboration de trois locuteurs qui ont accepté d’y enregistrer des matériaux de nature autobiographique. On s’intéressera ici à ce sous-corpus en le confrontant aux enjeux de la restitution globale aussi bien au niveau de ses contenus, des audiences visées que des problèmes de circulation impliqués. Cette comparaison met au jour un échantillon d’expérimentations réflexives variées qui sera l’objet d’une esquisse comparative avec d’autres exemples de projets DoBeS ayant eu lieu au Brésil (Haut Xingu). The Yurakaré of the Bolivian Amazon have influenced, in different ways, the DoBeS language documentation project in which the author participated. On the one hand, the material collected has been digitally returned on hard disks to several of their political and educational organizations. This global restitution is part of a process of building a “national” Yurakaré identity, which results from the structural transformations of Bolivia into a Plurinational State. In addition, this documentation project benefited from the collaboration of three speakers who agreed to record material of an autobiographical nature. We will focus here on this sub-corpus in relation to the challenges of global restitution; in terms of its content, target audience and circulation. This comparison brings to light a sample of various reflexive experiments which will be the subject of a comparative sketch with other examples of DoBeS projects that took place in Brazil (Upper Xingu).
- Published
- 2021
- Full Text
- View/download PDF
5. Language Documentation and Standards in Digital Humanities: TEI and the documentation of Mixtepec-Mixtec
- Author
-
Bowers, Jack, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), École Pratique des Hauts Études, and Laurent Romary
- Subjects
Mixtepec-Mixtec ,mixtèque de mixtepec ,Linguistics ,TEI ,[SCCO.LING]Cognitive science/Linguistics ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,Documentation linguistique ,Language Documentation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Digital Humanities ,Linguistique ,Corpus Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanités numériques ,Linguistique sur corpus - Abstract
This dissertation concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas.The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language.Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields.; Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-1000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’état d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’état de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les états d’Oregon, Floride, et Arkansas.Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagiers pour la langue sous licence ouverte, et la communauté des locateurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de documentation linguistiques par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnole, anglais); une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI; une description sommaire des caractéristiques linguistiques et lexicales.En raison de l’étendue des données et des ressources produites au cours de ce travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrit dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.
- Published
- 2020
6. La documentación de las lenguas patagónicas en el gabinete de Samuel A. Lafone Quevedo. El Vocabulario Guenaken
- Author
-
María Emilia Orden and Marisa Malvestitti
- Subjects
Cultural Studies ,Guenaken ,musée de La Plata ,Lafone Quevedo ,Anthropology ,documentación lingüística ,La Plata Museum ,Museo de La Plata ,Linguistic documentation ,documentation linguistique - Abstract
En el último tercio del siglo xix, en pleno auge de la descripción de los grupos indígenas de Latinoamérica, Samuel A. Lafone Quevedo (1835-1920) comenzó su labor de recolección y descripción lingüísticas. Preocupado por la configuración de un mapa étnico americano, estableció patrones léxico-gramaticales que permitieran reconocer vínculos genéticos o procesos de difusión. En esa búsqueda se entrevistó en el Museo de La Plata con un hablante de günün a iajüch (entonces conocida como guenaken o puelche), con quien elicitó un vocabulario que consta de 116 entradas y permaneció inédito entre sus papeles de trabajo. En este artículo ofrecemos acceso a la fuente, que amplía los registros existentes sobre este idioma, y explicamos cómo la documentación del filólogo se realizó con un patrón estandarizado en diálogo con la bibliografía previa y con fines contrastivos con otras lenguas patagónicas. Au cours du dernier tiers du xixe siècle, en plein boom de la description des ethnies indigènes d’Amérique latine, Samuel A. Lafone Quevedo (1835-1920) s’engagea dans un travail de récolte et de description linguistique. Tentant de dresser une carte ethnique de l’Amérique, il recherchait des régularités lexico-grammaticales qui permettraient de reconnaître des liens génétiques ou des processus de diffusion. C’est dans cette optique qu’il enquêta au musée de La Plata avec un locuteur du günün a iajüch (alors connu sous les noms de guenaken ou de puelche), avec qui il élicita un vocabulaire contenant 116 entrées, resté inédit parmi ses documents de travail. Dans cet article, nous donnons accès à la source, ce qui augmente les données disponibles sur cette langue, et nous expliquons comment la documentation du philologue a été réalisée conformément à un modèle standardisé, en dialogue avec la bibliographie antérieure et afin d’établir des contrastes avec les autres langues de Patagonie. Towards the end of the nineteenth century, during the boom of the description of indigenous groups in Latin America, Samuel A. Lafone Quevedo (1835-1920) began his work of collection and linguistic description. Concerned about the configuration of a Latin American ethnic map, he established lexical-grammatical patterns in order to detect structural patterns allowing the recognition of genetic links or diffusion processes. During his research at the La Plata Museum, Lafone Quevedo met a speaker of the Günün a iajüch language (also known as Guenaken or Puelche) and elicited with him a wordlist of 116 entries which has remained unpublished until now. In this text we offer access to the source, which expands existing records about this language, and we explain that the philologist’s elicitation was carried out according to a standardized method, supported by the previous bibliography and comparison with other Patagonian languages.
- Published
- 2020
7. Alignement temporel entre transcriptions et audio de données de langue japhug
- Author
-
Macaire, Cécile, Parmentier, Yannick, Poibeau, Thierry, Schang, Emmanuel, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,documentation linguistique ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,japhug ,Alignement temporel - Abstract
La collection Pangloss héberge un corpus de langue japhug: plus de 30 heures d'enregistrements audio (et dans une moindre mesure vidéo) accompagnés de transcriptions. La grande majorité des transcriptions, réalisées par le linguiste Guillaume Jacques, spécialiste de la langue, ne comportaient pas d'informations concernant l'alignement texte-son: les seuls points de référence étaient le début et la fin des enregistrements, dont la durée va de 22 secondes à 33 minutes. Le présent exposé présente la façon dont des chronocodes (balises indiquant l'alignement texte-son) ont été ajoutés au niveau de la phrase. La chaîne de traitement consiste en une application de l'outil d'alignement forcé MAUS, doublé d'une étape de vérification manuelle. Ce travail, réalisé sans intervention du linguiste, permet désormais la consultation phrase par phrase de la transcription, la citation d'une phrase spécifique par le biais d'une référence DOI, ainsi que l'utilisation des documents pour entraîner un modèle acoustique en vue de la transcription phonémique automatique de cette langue à faibles ressources. Cette tâche illustre l'utilité de collaborations entre linguistes et ingénieur·e·s informatiques pour la documentation linguistique.
- Published
- 2020
8. Ouvrir aux linguistes « de terrain » un accès à la transcription automatique
- Author
-
Wisniewski, Guillaume, Michaud, Alexis, Galliot, Benjamin, Besacier, Laurent, Guillaume, Séverine, Aplonova, Katya, Jacques, Guillaume, Laboratoire de Linguistique Formelle (LLF UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Langage, LAngues et Cultures d'Afrique (LLACAN), Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Poibeau, Thierry, Parmentier, Yannick, and Schang, Emmanuel
- Subjects
science ouverte ,documentation linguistique ,documentation linguistique assistée par ordinateur ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Le traitement automatique de la parole (TAP) commence désormais à réaliser son fort potentiel pour les tâches urgentes de description de la diversité linguistique mondiale (en déclin rapide). L’objectif du travail décrit ici consiste à mettre à la portée des praticiens de la linguistique « de terrain » (linguistes et collaborateurs) des outils de transcription automatique à la pointe des avancées technologiques. Une interface graphique conviviale, Elpis, donne accès à Kaldi et ESPnet. Les résultats sont particulièrement encourageants. D’une part, la mise au point d’une recette ESPnet à utiliser dans Elpis donne d’excellents résultats, aussi bien sur deux jeux de données précédemment utilisés pour entraîner des modèles acoustiques avec la boîte à outils Persephone qu’avec un nouveau jeu de données (langue japhug). D’autre part, l’incorporation d’ESPnet dans Elpis s’accompagne d’améliorations de l’interface utilisateur, d’une installation facilitée par conteneurisation (Docker), ainsi que de l’utilisation de processeurs graphiques (CUDA), ce qui accélère l’entraînement des modèles.
- Published
- 2020
9. Presentative demonstratives in Kambaata from a Cushitic perspective
- Author
-
Treis, Yvonne, Langage, LAngues et Cultures d'Afrique (LLACAN), Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Isabelle Leblic, Lameen Souag, Labex EFL, and Langage, LAngues et Cultures d'Afrique Noire (LLACAN)
- Subjects
Demonstratives ,Cushitic ,Verbal demonstratives ,présentatifs ,couchitique ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Language documentation ,démonstratifs ,démonstratif verbal ,Presentative demonstratives - Abstract
Article based on a presentation given at the International conference "Du terrain à la théorie : Les 40 ans du Lacito", 15-17 November 2016, Villejuif (France); International audience; This article is the first study of presentative demonstratives in a Cushitic language. It closes a gap in the grammatical documentation of Kambaata (Highland East Cushitic) and analyzes in detail the morphology and the functions of presentative demonstratives (‘here s/he is!’). In the Cushitic context, the Kambaata presentative system stands out as unique in its morphological complexity: Kambaata presentative demonstratives are marked for three deictic dimensions, and in each deictic dimension two genders and two numbers are distinguished, which amounts to 12 functionally distinct forms, plus 12 free or dialectal variants. The presentatives cannot be morphologically derived from other (adjectival, pronominal) demonstrative types. Kambaata is not the only Cushitic language with presentatives but traces of this demonstrative type are difficult to come by. The article is able to present the first evidence for the existence of presentative demonstratives in Hadiyya, Gedeo, Sidaama and Oromo.; Cet article est la première étude de démonstratifs présentatifs dans une langue couchitique. Il comble une lacune dans la documentation grammaticale du kambaata et analyse en détail la morphologie et les fonctions des démonstratifs présentatifs (« Le/la voilà ! »). Dans le contexte couchitique, le système présentatif du kambaata se distingue par sa complexité morphologique unique : les démonstratifs présentatifs en kambaata distinguent trois dimensions déictiques et, dans chaque dimension déictique, les démonstratifs sont marqués pour deux genres et deux nombres, ce qui correspond à douze formes fonctionnellement distinctes, auxquelles s’ajoutent douze variantes libres ou dialectales. Les présentatifs ne peuvent être morphologiquement dérivés d'autres types démonstratifs (par ex., des adjectifs ou pronoms). Le kambaata n'est pas la seule langue couchitique à avoir des démonstratifs présentatifs. Bien qu’il soit difficile de trouver des traces dans la documentation existante, l’article parvient à présenter les premières preuves de l’existence de ce type de démonstratifs en hadiyya, gedeo, sidaama et oromo.
- Published
- 2020
10. La transcription du linguiste au miroir de l’intelligence artificielle : réflexions à partir de la transcription phonémique automatique
- Author
-
Michaud, Alexis, Adams, Oliver, Cox, Christopher, Guillaume, Séverine, Wisniewski, Guillaume, Galliot, Benjamin, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Miner & Kasch, University of Alberta, Laboratoire de Linguistique Formelle (LLF UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP), Institut des langues rares, ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010), and ANR-19-CE38-0015,CLD2025,La documentation computationnelle des langues à l'horizon 2025(2019)
- Subjects
Reconnaissance de la parole ,Transcription Automatique de la parole ,Documentation linguistique assistée par ordinateur ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Documentation linguistique ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Accepté pour publication dans le Bulletin de la Société de Linguistique de Paris (à paraître vers janvier-février 2021); International audience; Automatic speech recognition systems now achieve high levels of accuracy with relatively small amounts of training data: on the order two to three hours of transcribed speech, instead of tens of hours for previous tools. Beyond the practical usefulness of these technological advances for linguistic documentation tasks, use of automatic transcription also yields some linguistic insights. Acoustic models are built on the basis of the linguist’s transcriptions, and thus encapsulate linguistic hypotheses and assumptions. To what extent can acoustic models be examined in turn by the linguist? What can we learn from this renewed confrontation with the acoustic signal? The present study is based on examples from the Native language (Sino-Tibetan family) to illustrate how error analysis allows a renewed confrontation with the data. Among other benefits, error analysis allows for a renewed exploration of phonetic detail: examining the output of phonemic transcription software compared with spectrographic and aural evidence. Some reflections on experiments of automatic transcription of the Tsuut'ina language (Dene family) are also presented.; Les systèmes de reconnaissance automatique de la parole atteignent désormais des degrés de précision élevés sur la base d'un corpus d'entraînement limité à deux ou trois heures d'enregistrements transcrits (pour un système mono-locuteur), au lieu de dizaines d'heures pour les outils antérieurs. Au-delà de l'intérêt pratique que présentent ces avancées technologiques pour les tâches de documentation linguistique, se pose la question de leur apport pour la réflexion du linguiste. En effet, le logiciel réalise son entraînement sur la base de transcriptions fournies en entrée par le linguiste, transcriptions qui reposent sur un ensemble d'hypothèses plus ou moins élaborées, et plus ou moins explicites. Le modèle acoustique, décalqué (par des méthodes statistiques) de l'écrit du linguiste, peut-il être interrogé par ce dernier, en un jeu de miroir ? Que peut nous apprendre la confrontation ainsi renouvelée avec le signal acoustique ? La présente étude s'appuie sur des exemples de langue na (famille sino-tibétaine) pour illustrer la façon dont l'analyse d'erreurs permet une confrontation renouvelée avec les données. Quelques réflexions au sujet d'expériences de transcription automatique de la langue tsuut'ina (famille dene) sont également présentées.; 目前,自动语音识别系统使用相对较少的训练数据就能达到很高的准确度:以前需要几十个小时才能完成的语音转录任务现在只需两三个小时即可完成。除了技术进步对语言记录任务的实际效率作用外,使用自动转录也产生了一些新的语言学观点:声学模型是建立在语言学家的转录基础上的,因此也涵盖了语言学的假设和假定。声学模型在多大程度上可以被语言学家用来进行反证和考察?我们能从这种对声学信号的重新面对中学习到什么?本研究基于纳语(摩梭话)的例子来说明误差分析是如何让我们重新面对数据的。除其他优势以外,误差分析还可以重新探索语音细节:将音位转录软件的输出与频谱和听觉证据进行对比研究。还提出了对北美大陆德内语支(阿萨巴斯卡语支)语言自动转录实验的一些思考。
- Published
- 2020
11. Reflections on Linguistic Fieldwork Within Moribund Speech Communities
- Author
-
Florian Siegl
- Subjects
History ,terrain linguistique ,langues moribondes ,Field (Bourdieu) ,Perspective (graphical) ,Linguistics ,linguistic fieldwork ,moribund languages ,keelte dokumenteerimine ,väljasurevad keele ,language documentation ,Personal experience ,documentation linguistique ,keelelisi välitöid - Abstract
Whereas linguists conducting fieldwork tend to be a minority among linguists, linguists conducting fieldwork among the last speakers of an underresearched/underdocumented or even undocumented language are a minority within a minority. Although a number of fieldwork manuals have been published in recent decades, the perspective of fieldwork in extreme sociolinguistic situations such as among the last speakers of a language is usually underrepresented in the literature. It is precisely this perspective which will be presented by shedding some light on personal experiences and challenges from ongoing work on two moribund languages Forest Enets (Samoyedic, Uralic) and Ume Saami (Saami, Uralic). These impressions are contrasted with personal experiences from fieldwork and consultant work on other languages such as Dolgan and Tuvin (both Turkic), Taimyr Tundra Nenets (Samoyedic, Uralic) as well as Meithei (Sino‑Tibetan) and Tundra Yukaghir (isolate). A central claim of this article is to show that work with extremely endangered languages does not allow any meaningful equation; field sites are unique and working with speakers of moribund languages in different countries may mean very different things and imply highly diverging challenges—what works in field site X does not necessarily work in field site Y and vice versa. Alors que les linguistes de terrain ont tendance à être une minorité dans leur discipline, ceux qui font leurs terrains parmi les derniers locuteurs de langues sous-étudiées, sous-documentées, voire non documentées sont encore une minorité de la minorité. Même si un certain nombre de manuels de terrain ont été publiés dans les dernières décennies, la perspective du terrain dans des situations sociolinguistiques extrêmes comme c’est le cas parmi les derniers locuteurs d’une langue est en général sous-représenté dans la littérature existante. C’est cette perspective qui fait l’objet du présent article à partir d’une expérience personnelle d’un travail sur le terrain, ainsi que de consultations sur des langues aussi diverses que le dolgane et le touvinien (toutes deux turciques), le nénetse de la toundra parlé dans le Tajmyr (une langue samoyède, ouralienne) ainsi que le meithei (langue sino-tibétaine) et le youkaghir de la toundra (isolat). L’un des principaux objectifs de cet article est de montrer que la notion de langues en danger extrême ne recouvre jamais les mêmes paramètres, chaque site est unique, et travailler avec les derniers locuteurs d’une langue dans des pays différents peut signifier des activités fort différentes et présenter des défis fort divers – ce qui fonctionne sur un site x peut ne pas fonctionner sur un site y et vice-versa. Kui välitöid harrastavad keeleteadlased on keeleteadlaste hulgas vähemus, need kes teevad välitöid viimaste inimeste juures, kes kõnelevad alauuritud, aladokumenteeritud või üldse mitte dokumenteeritut keelt on veel vähemuse vähemus. Kuigi viimaste aastakümnete jooksul on ilmunud mõned välitöö õpikud, ekstreemsed olukorrad, mis tekivad töötades viimaste keelekõnelejatega, käsitletakse harva olemasolevas kirjanduses. Selles on jutt käesolevad artiklis isikliku kogemuse põhjal, nii välitöödes kui ka konsultandiks olemisest erinevate keelte jaoks – dolgaani ja tuva keeled (mõlemad türgi keelkonnast), Taimõri tundraneenetsi keel (samojeedi, uurali keel) kui ka meithei (sino-tibeti keel) ja tundrajukagiiri keel (isoleeritud keel). Sele artikli üks peamistest eesmärkidest on näidata, kuidas ekstreemselt ohustatute keelte mõiste kunagi ei kata samasuguseid reaalsusi: iga tööväli on unikaalne, ja viiaste keelekõnelejatega töötamine võib tähendada väga erinevaid asju erinevatel riikidel ning esitada väga erinevaid väljakutseid – see, mis toimib ühel alal ei pruugi toimida mujal.
- Published
- 2019
12. Language Documentation and Standards in Digital Humanities: TEI and the documentation of Mixtepec-Mixtec
- Author
-
Jack Bowers, Austrian Academy of Sciences (OeAW), Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL), École pratique des hautes études (EPHE), École Pratique des Hauts Études, Laurent Romary, and Bowers, Jack
- Subjects
Linguistics and data processing ,Corpus linguistics ,Mixtepec-Mixtec ,mixtèque de mixtepec ,[SCCO.COMP]Cognitive science/Computer science ,Linguistics ,TEI ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,[SCCO.LING]Cognitive science/Linguistics ,Documentation linguistique ,Language documentation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Linguistique ,[SCCO.COMP] Cognitive science/Computer science ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Linguistics annotation ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,[SCCO.LING] Cognitive science/Linguistics ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanités numériques ,Linguistique sur corpus ,Digital humanities - Abstract
This dissertation concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas.The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language.Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields.; Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-1000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’état d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’état de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les états d’Oregon, Floride, et Arkansas.Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagiers pour la langue sous licence ouverte, et la communauté des locateurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de documentation linguistiques par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnole, anglais); une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI; une description sommaire des caractéristiques linguistiques et lexicales.En raison de l’étendue des données et des ressources produites au cours de ce travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrit dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.
- Published
- 2019
13. Bảng từ EFEO-CNRS-SOAS dùng cho nghiên cứu điền dã ngôn ngữ học ở Đông Nam Á
- Author
-
PAIN, FREDERIC, Ferlus, Michel, Michaud, Alexis, Phạm, Thị Thu Hà, Gehrmann, Ryan, Nguyễn, Minh-Châu, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Speech Communication, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Vietnam National University - Department of Linguistics (VNU-USSH), Vietnam National University [Hanoï] (VNU), Payap University, and ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011)
- Subjects
CNRS ,Asie du Sud-Est ,EFEO ,dialectologie ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,linguistic documentation ,word list ,Southeast Asia ,SOAS ,dialectology ,linguistic fieldwork ,multilingual resources ,ressources multilingues ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,liste de vocabulaire - Abstract
This word list aims to allow researchers (i) to conduct in-depth lexical investigation when doing fieldwork on languages of Southeast Asia, and (ii) to navigate between languages and dialects, through the use of a unique identifier for each lexical entry. The first version of this word list was created by Ecole Française d'Extrême-Orient (EFEO) for a broad investigation launched in 1938 and interrupted by the war in 1940. A second version of the word list was elaborated at the CNRS laboratory CeDRASEMI (Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien). This overhaul was supervised by Lucien Bernot, probably between 1960 et 1970; the list was jointly prepared by the Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien (EPHE-CNRS, Paris) and the Department of South Asia and Oceania of the School of Oriental Studies (University of London) with a view to creating an Ethnolinguistic Atlas of Southeast Asia. Michel Ferlus re-typed the 22-page list to adopt a format suitable for use in the field. As the list remained insufficiently comprehensive for in-depth linguistic fieldwork, Michel Ferlus added further items in the course of his field trips to Vietnam in the 1990s. This list was circulated among Michel Ferlus's colleagues and collaborators. Khmer glosses were added, based on a version of the CeDRASEMI-SOAS list to which Marie Martin had added Khmer glosses. Version 1 of the present document was updated at the International Research Institute MICA in 2013-2014. Chinese glosses were added; English glosses were supplemented; and Vietnamese glosses were revised. The word list is offered online in Open Office format (.ods) and MS-Excel format (.xlsx). In Version 2 (2016), the full set of English translations was checked. In Version 3 (2019), Central Thai, Northern Thai, Lao and Burmese translations were added.; Cette liste numérotée vise à permettre aux chercheurs de naviguer entre les langues et les dialectes recueillis au fil des ans et sur tous les terrains d'Asie du Sud-Est. La première version de ce lexique a été élaborée par l'Ecole Française d'Extrême-Orient (EFEO) pour une vaste enquête lancée en 1938 et interrompue par la guerre en 1940. L'EFEO en a imprimé une quantité sous la forme de petits fascicules, distribués aux fonctionnaires envoyés en mission par l'administration coloniale (Questionnaire linguistique, Hanoi: Imprimerie d'Extrême-Orient, 1938). Une deuxième version a été élaborée au laboratoire CeDRASEMI du CNRS (Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien). Lucien Bernot a été la cheville ouvrière de cette amélioration qui a dû se faire entre 1960 et 1970. Cette version était décrite comme un "Questionnaire linguistique préparé conjointement par le Centre de documentation et de recherche sur l'Asie du Sud-Est et le monde insulindien (EPHE-CNRS, Paris) et le Département d'Asie du Sud-Est et d'Océanie de la School of Oriental Studies (University of London) en vue de l'établissement d'un Atlas ethnolinguistique de l'Asie du Sud-Est". Michel Ferlus a re-tapé cette liste pour en faire des cahiers d'enquête commodes à remplir sur le terrain. Comme cette liste restait insuffisante pour une bonne utilisation linguistique, Michel Ferlus l'a augmentée au cours de ses enquêtes au Vietnam dans les années 1990. Cette liste a été enrichie de gloses en khmer, en partie fondées sur la version de la liste CeDRASEMI-SOAS annotée en khmer par Marie Martin. La première version du présent document a été réalisée à l'Institut de recherche international MICA à partir de 2013. Les ajustements principaux ont été les suivants: une nouvelle numérotation a été établie, pour faciliter l'emploi de la liste; des gloses en chinois ont été ajoutées ; les gloses en anglais ont été complétées; et les gloses en vietnamien ont été intégralement révisées. La liste de vocabulaire est mise à libre disposition en ligne au format Open Office (.ods). Dans la version 2 (2016), les gloses anglaises ont été intégralement revues par une équipe coordonnée par Ryan Gehrmann. Dans la version 3 (2019) ont été ajouté le thai central, le thai du Nord, le lao et le birman.
- Published
- 2019
14. Phonemic transcription of low-resource tonal languages
- Author
-
Adams, Oliver, Cohn, Trevor, Neubig, Graham, Michaud, Alexis, University of Melbourne, Carnegie Mellon University [Pittsburgh] (CMU), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Wong, Sze-Meng Jojo, Haffari, Gholamreza, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, and Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID
- Subjects
Automatic language processing ,Oral literature ,Interdisciplinarity ,Automatic speech recognition ,Multimedia corpora ,Open access ,Language documentation ,Documentation linguistique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Open-source software ,Transcription automatique ,Online databases ,Automatic speech transcription ,Traitement automatique de la parole ,Sound archives ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Endangered languages ,Transcription phonémique - Abstract
International audience; Transcription of speech is an important part of language documentation, and yet speech recognition technology has not been widely harnessed to aid linguists. We explore the use of a neural network architecture with the connectionist temporal classification loss function for phonemic and tonal transcription in a language documentation setting. In this framework, we explore jointly modelling phonemes and tones versus modelling them separately, and assess the importance of pitch information versus phonemic context for tonal prediction. Experiments on two tonal languages, Yongning Na and Eastern Chatino, show the changes in recognition performance as training data is scaled from 10 minutes to 150 minutes. We discuss the findings from incorporating this technology into the linguistic workflow for documenting Yongning Na, which show the method's promise in improving efficiency, minimizing typographical errors, and maintaining the transcription's faithfulness to the acoustic signal, while highlighting phonetic and phonemic facts for linguistic consideration.
- Published
- 2017
15. Vers des ressources électroniques interconnectées : Lexica, les dictionnaires de la collection Pangloss
- Author
-
Bonnet, Rémy, Buret, Céline, François, Alexandre, Galliot, Benjamin, Guillaume, Séverine, Jacques, Guillaume, Lahaussois, Aimée, Michailovsky, Boyd, Michaud, Alexis, Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Australian National University (ANU), HTL - Histoire des Théories Linguistiques - UMR 7597 (HTL), Université Sorbonne Nouvelle - Paris 3-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), ANR-11-IDEX-0005-02/10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2011), ANR-12-CORP-0006,HimalCo,Himalayan Corpora(2012), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), and Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7)-Université Sorbonne Nouvelle - Paris 3
- Subjects
dictionnaires ,linguistique de corpus ,libre accès ,lexicographie ,édition scientifique ,humanités numériques ,langues en danger ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
International audience; La présente communication expose l’état d’avancement de réalisation de dictionnaires en ligne, étape dans l’entreprise de long terme qui consiste à tirer parti des nouvelles technologies pour relier entre elles les réalisations des linguistes dits "de terrain": grammaires, dictionnaires, et recueils de textes. Demain, dictionnaires et grammaires pourront non seulement être interconnectés, mais aussi liés aux textes qui forment le cœur des données linguistiques, ainsi qu’aux enregistrements audio et vidéo de parole spontanée. Plus que de fixer une langue au moyen de l’imprimé, il s’agit désormais de l’offrir à des modes nouveaux de navigation, en exploitant tout le potentiel de corpus en ligne, y compris par des traitements statistiques.
- Published
- 2017
16. Analyzing prosodic systems in East Asia: linguistic fieldwork and experimental phonetics
- Author
-
Michaud, Alexis, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Université Lumière - Lyon 2, François Pellegrino, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID, PROJET AVENIR LYON SAINT-ETIENNE - - Avenir L.S.E.2011 - ANR-11-IDEX-0007 - IDEX - VALID, and Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID
- Subjects
linguistique de terrain ,Naish languages ,Austroasiatic languages ,langues vietiques ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Vietic languages ,langues naish ,linguistic fieldwork ,langues sino-tibétaines ,language documentation ,langue austroasiatique ,phonétique expérimentale ,Sino-Tibetan languages ,experimental phonetics ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
In the present-day French university system, Habilitation à Diriger les Recherches (meaning “accreditation to supervise research”) is a post-doctoral qualification conferred for a thesis accompanied by selected publications, and defended in a process similar to that of a doctoral dissertation. Accordingly, my application for Habilitation comprises (i) ten publications and (ii) a memoir, entitled “Analyzing prosodic systems in East Asia: linguistic fieldwork and experimental phonetics”, which presents my research since completion of my Ph. D. (2005) and sketches out perspectives for future work and for the supervision of younger scholars’ research., Comme il est d’usage, le présent dossier soumis en vue de l’Habilitation à Diriger les Recherches présente les travaux réalisés depuis le doctorat (2006-2016) et esquisse des orientations futures pour mes recherches et pour l’encadrement de jeunes chercheurs. La synthèse des travaux réalisés est organisée selon cinq axes : linguistique de terrain, phonétique expérimentale et phonologie théorique, prosodie, phonétique historique, et enfin méthodologie. Dix publications sont jointes au dossier. Parmi celles-ci, la principale est une monographie au sujet du système tonal d’une langue sino-tibétaine, le na de Yongning.
- Published
- 2017
17. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Alexis Michaud, Séverine Guillaume, Guillaume Jacques, Đăng-Khoa Mạc, Michel Jacobson, Thu-Hà Phạm, Matthew Deo, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), and ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010)
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
International audience; This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections.; La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
18. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Michaud, Alexis, Guillaume, Séverine, Jacques, Guillaume, Mạc, Đăng-Khoa, Jacobson, Michel, Phạm, Thu-Hà, Deo, Matthew, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, and Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections., La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
19. Le berbère de Siwa : documentation, syntaxe et sémantique
- Author
-
Schiattarella, Valentina, École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL), Ecole Pratique des Hautes Etudes, Amina Mettouchi, and Schiattarella, Valentina
- Subjects
endangered languages ,syntaxe ,corpus oraux ,structure de l’information ,linguistic documentation ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Berber ,linguistique africaine ,Afro-asiatic ,African linguistics ,siwi ,sémantique ,langues en danger ,oral corpus ,berbère ,afro-asiatique ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,syntax ,semantics ,information structure - Abstract
This work aims to present the results of a documentation project on the Siwi language (a Berber language spoken in the Siwa oasis, Egypt by 25,000 speakers) through the analysis of selected aspects of the language, concerning mainly syntax and semantics, that come from the exploitation of a corpus composed of oral data, recorded by both male and female speakers. The thesis is divided into ten chapters (1. Aspect and Mood in the Verbal System of Siwi; 2. Verbal Grammaticalisation; 3. Negation; 4. The -a Suffix and the Resultative Perfect; 5. Preposition n; 6. Demonstratives; 7. Relative Clauses; 8. Other Subordinated Clauses; 9. Accent on Nouns; 10. Word Order and the Information Structure). In each chapter, the linguistic issue is introduced in a typological perspective, then within Berber, before it is analyzed in details in Siwi. Several phenomena that had hitherto remained undescribed, or had not been analyzed, are studied in this research thesis. The appendices at the end are composed of five texts (transcribed and translated during fieldwork) and their metadata. They provide a varied sample (two folktales and three narrations by male and female speakers of different ages) of the language under examination., L’objectif de ce travail est de présenter les résultats d’un projet de documentation linguistique sur la langue siwi (langue berbère parlée dans l’oasis de Siwa, en Egypte, par environ 25.000 locuteurs) à travers l’analyse de certains aspects de syntaxe et de sémantique intéressants pour la typologie et les études berbères, issus de l’exploitation d’un corpus de données orales, enregistré auprès de locuteurs hommes et femmes. La thèse est divisée en dix chapitres (1. L’aspect et la modalité dans le système verbal du siwi ; 2. La grammaticalisation verbale ; 3. La négation ; 4. Le suffixe -a et l’accompli résultatif ; 5. La préposition n ; 6. Les démonstratifs ; 7. La proposition relative ; 8. Les propositions subordonnées ; 9. L’accent nominal ; 10. L’ordre des mots et la structure informationnelle). Dans chaque chapitre, on commence par introduire la thématique au niveau typologique, puis dans la branche berbère, pour ensuite l’aborder en détail en siwi. Plusieurs phénomènes encore non décrits ou analysés sont traités dans ce travail de recherche.
- Published
- 2015
20. Koroshi : A Corpus-based Grammatical Description
- Author
-
Nourzaei, Maryam, Jahani, Carina, Anonby, Erik, and Ahangar, Abbas Ali
- Subjects
Koroshi ,Balochi ,Studier av enskilda språk ,corpus linguistics ,langues iraniennes ,récits oraux ,muntliga berättelser ,korpuslingvistik ,Iranska språk ,oral narratives ,Specific Languages ,linguistique de corpus ,language documentation ,Iranian languages ,Balochiska ,språkdokumentation ,documentation linguistique - Abstract
The Korosh people are scattered across large areas of southern Iran, from Hormozgan all the way to Khuzestan, and onto the Iranian plateau. This group, which numbers over 10,000 people, is found in significant concentrations near Bandar Abbas in Hormozgan Province, in north-western Fars Province around Shiraz, and across the southern part of Fars Province. Although oral accounts situate the provenance of the Korosh in Balochistan, and their language is closely related to southern varieties of Balochi, they have a distinct identity. Some affirm a historical and ethnic connection to the Baloch, but others view themselves as an autonomous tribe; in north-western Fars Province, members of the group maintain an affiliation with the larger Qašqā’i tribal confederacy. The present work contributes to the study of the Korosh through the lens of their language, Koroshi. The corpus for this study has been gathered among speakers of the dialect of Koroshi spoken around Shiraz. The book opens with a brief overview of the Korosh people and their culture. The main part of the study consists of an in-depth, corpus-based description of the phonology and morphosyntax of the Koroshi language; a corpus of seven glossed and translated texts of different genres; and a glossary of more than 1200 items. This documentation is supplemented with a CD containing soundfiles of the texts, a searchable PDF of the book, and images of the Koroshi community.
- Published
- 2015
21. Linguistiques d'intervention : les dimensions socio-politiques de la linguistique écologique
- Author
-
Lechevrel, Nadège, Centre de Linguistique Anthropologique et Sociolinguistique - Institut Marcel Mauss (LIAS - IMM), École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS), and Lazcano, Elisabeth
- Subjects
[SHS.HISPHILSO]Humanities and Social Sciences/History, Philosophy and Sociology of Sciences ,Ecological linguistics ,endangered languages ,usages doctrinaires de l’écologie ,[SHS.HISPHILSO] Humanities and Social Sciences/History, Philosophy and Sociology of Sciences ,language documentation ,dogmatic ecology ,langues en danger ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Linguistique écologique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Most ecological approaches in linguistics use concepts borrowed from biological ecology, environmental philosophy or political ecology in an attempt to analyze language change and language evolution. This article discusses the relationship between ecological dogmatism and the fields of endangered languages, language documentation, or linguistic typology., La linguistique écologique rassemble une multitude de courants empruntant distinctement à l’écologie biologique, à la philosophie écologiste ou à l’écologie politique pour analyser les langues et le langage. Cet article présente les travaux de linguistes dans le domaine des langues en danger et de la documentation linguistique ainsi que ceux, plus diffus, de linguistes typologistes et de chercheurs ayant étudié les liens entre langues et environnement ; il contribue ainsi à la discussion portant sur la perméabilité (ou non) des sciences du langage aux doctrines socio-politiques (ici, aux doctrines écologistes) et sur la complexité des rapports triadiques entre linguistes, communautés linguistiques et institutions.
- Published
- 2014
22. Exploring Language in a Multilingual Context
- Author
-
Bettina Migge, Isabelle LEGLISE, Structure et Dynamique des Langues (SeDyL), Centre National de la Recherche Scientifique (CNRS)-Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135, University College Dublin [Dublin] (UCD), and Léglise, Isabelle
- Subjects
[SHS.ANTHRO-SE] Humanities and Social Sciences/Social Anthropology and ethnology ,multilingualism ,language contact ,linguistic ideologies ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,idéologies ,anthropologie linguistique ,plurilinguisme ,language documentation ,linguistic anthropology ,contacts de langues ,variation ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
This book proposes a new methodological approach to documenting languages spoken in multilingual and socially and linguistically heterogeneous and dynamic contexts. Tracing the investigation of one unique linguistic space, the English-lexified creole language called Takitaki in multilingual French Guiana, the book illustrates how interactional sociolinguistic, discourse analytical and quantitative sociolinguistic approaches can be fruitfully integrated with structural approaches to language in order to systematically resolve dicey but rarely theorised/discussed questions (what are the outlines of the community, who is a rightful speaker, what speech to document etc) that frequently crop up in projects of language documentation in multilingual contexts. The authors argue that comprehensively documenting complex linguistic phenomena requires taking into account the views of all local social actors (speakers, institutions, linguists, non-speakers etc), applying a range of complementary data collection and analysis methods and putting issues of ideology, variation, language contact and interaction centre stage.phenomena requires taking into account the views of all local social actors (speakers, institutions, linguists, non-speakers etc), applying a range of complementary data collection and analysis methods and putting issues of ideology, variation, language contact and interaction centre stage.
- Published
- 2012
- Full Text
- View/download PDF
23. La documentación lingüística del ixcateco (xuani) : una etapa y una ayuda en el difícil rescate de la lengua
- Author
-
Costaouec, Denis, Structure et Dynamique des Langues (SeDyL), Centre National de la Recherche Scientifique (CNRS)-Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135, MDP SOAS 2010-2012 : Textual and Lexical Documentation of Ixcatec, a highly endangered Otomanguean language of Oaxaca, Mexico, and Costaouec, Denis
- Subjects
Documentación lingüística ,Ixcatèque ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Ixcateco ,Enseñanza de la lengua ,Documentation linguistique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Enseignement de la langue - Abstract
Presentamos en esta comunicación la situación del ixcateco, lengua otomangue (México) gravemente amenazada de desaparición, el proyecto de documentación lingüística en curso y su aportación posible para los intentos de enseñanza de la lengua (kinder, primaria y telesecundaria) en el pueblo de Santa María Ixcatlán (Estado de Oaxaca)., On présente dans cette communication la situation de l'ixcatèque, langue otomangue (Mexique) gravement menacée de disparition, le projet de documentation linguistique en cours et son apport possible aux tentatives d'enseignement de la langue (maternelle, primaire, secondaire) dans le village de Santa María Ixcatlán (État de Oaxaca).
- Published
- 2011
24. Creoles in Contact in French Guiana & Suriname: Implications for Language Documentation
- Author
-
Isabelle LEGLISE, Bettina Migge, Structure et Dynamique des Langues (SeDyL), Centre National de la Recherche Scientifique (CNRS)-Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135, University College Dublin [Dublin] (UCD), and Léglise, Isabelle
- Subjects
Suriname ,contact de langues ,language documentation ,Creoles ,language contact ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Guyane ,French Guiana - Abstract
Creoles often exits in contexts characterized by multilingualism: what are said to be members of a creole community tend to have varying degrees of exposure to the Creole and other languages present, different levels of competence in each language and partially different attitudes towards them. Language use patterns are equally variable among community members and across social settings. As in most Africa settings, heterogeneity represents the norm rather than the exception. Viewed from this perspective, the notion of a language as a solid, self-contained and distinct system predominantly used for transmitting referential meaning which does not interact with other such entities with which it physically coexists appears like a fiction. However, despite mounting evidence, linguistic description and documentation tends to shy away from dealing with the consequences of this evidence. The aim of this paper is to chart new approaches to documenting languages that place linguistic heterogeneity and language variation and change at the centre rather than at the periphery. Based on a case study of language variation and linguistic practices relating to the Creoles of Suriname in French Guiana and Suriname, we emphasize two main aspects: a) people engage with (context-based) practices which together constitute a system of communication that is linguistically heterogeneous and may not be made up of what linguists call a language and b) depending on their social practices and ideologies, people's system of practices may involve a fair bit of variation even among members who perceive themselves as belonging to the same social entity/community. Based on evidence from our case study, we propose that empirically accountable language documentation must adopt a multi-methodological approach to language description, including a comprehensive analysis of the linguistic context, linguistic structure AND linguistic practice. Notions like language, 'good, rightful/representative' speaker, community and their relationship are not givens, but have to be critically examined within the context. Greater attention must be paid to community-as-value (Coupland 2009) to fully capture language and a language. Descriptions should be representative of the practices characterizing the speech community and be defined or deduced in a bottom up manner. Among other things, this crucially involves taking into account the practices of ALL language users regardless of how and when they learned and use the language as restricting research and documentation to (some) people who learned it as a language of primary socialization produces socially and linguistically unrepresentative grammars.
- Published
- 2011
25. Aspects of the Semantics of Intellectual Subjectivity in Dalabon (South-Western Arnhem Land)
- Author
-
Maïa Ponsonnet, Centre de Recherche et de Documentation sur l'Océanie (CREDO), École des hautes études en sciences sociales (EHESS)-Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Ponsonnet, Maïa
- Subjects
philosophical anthropology ,dalabon ,anthropology of the self ,linguistic relativity ,langues australiennes ,linguistic documentation ,langue menacée ,kriol ,créoles ,Aborigines ,sémantique ,threatened languages ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,semantics ,esprit ,mind ,relativité linguistique ,[SHS.ANTHRO-SE] Humanities and Social Sciences/Social Anthropology and ethnology ,anthropologie philosophique ,Australia ,Australie ,[SHS.ANTHRO-SE]Humanities and Social Sciences/Social Anthropology and ethnology ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Australian languages ,anthropologie de la personne ,Aborigènes - Abstract
This article analyses lexemes allowing to describe personal opinions, consciousness, the mind, the person as an intellectual entity, in the Dalabon language (a threatened language of Arnhem Land, Australia). The semantic patterns of Dalabon are then compared to the semantic patterns of the local creole, to show how the former has influenced the latter., Cet article explore les termes dalabon (langue menacée d'Australie du nord) qui permettent d'évoquer et de décrire les opinions personnelles, la conscience, l'esprit, l'individu en tant qu'entité subjective. La configuration sémantique du dalabon est ensuite comparée à celle du créole local, pour montrer comment la première influence la seconde.
- Published
- 2009
26. The Tai dialects of Nghệ An, Vietnam (Tay Daeng, Tay Yo, Tay Muong)
- Author
-
Ferlus, Michel, Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Diller, Anthony V.N., Edmondson, Jerold A., Luo, Yongxian, and Michaud, Alexis
- Subjects
[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Tonologie ,Documentation linguistique ,Asie du sud-est ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Dialectologie ,Péninsule indochinoise ,Tai-kadai - Abstract
A presentation of the Tai dialects of Nghệ An, Vietnam (Tay Daeng, Tay Yo, Tay Muong). This book chapter appeared in 2008 under an English title, but the text is in French. The present version was revised by the author in 2017., Présentation des dialectes tai du Nghệ An, Vietnam: Tay Daeng, Tay Yo, Tay Muong. Ce chapitre d'ouvrage est paru en 2008 sous un titre anglais, mais le texte est en français. La présente version a été revue par l'auteur en 2017.
- Published
- 2008
27. Logique d'élucidation, refondation épistémologique et empirisme critique : pour une linguistique impliquée
- Author
-
Léonard, Jean Léonard, Léonard Léonard, Jean, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), and Léonard, Jean Léonard
- Subjects
Epistémologie ,sociolinguistique ,langues en danger ,documentation linguistique ,contre-histoire ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Le paradigme des langues en danger n'est pas seulement une tendance récente et « porteuse ». Il fait l'objet de vives critiques, dans un esprit dialectique. Cette démarche, salutaire comme l'est toujours la dialectique, peut cependant conduire à des dérives si les contraintes du raisonnement dialectique ne sont pas respectées, et si les arguments d'autorité finissent par primer sur les contre-arguments, ou sur les règles élémentaires de la méthode. Ainsi, la logique d'élucidation, qui permet d'écarter les hypothèses relevant du « complot », le respect du libre arbitre historique et la prise en compte de la contre-histoire, sont les trois contre-arguments qu'on peut opposer à l'idée que « la mort des langues est aussi naturelle que la chute des feuilles », qui s'avère être un sophisme. En revanche, le paradigme des langues en danger ne peut se contenter de justifier ses exigences dans le champ des sciences du langage sur le seul motif de la nécessaire thésaurisation in extremis de faits de langue à la seule fin d'alimenter les recherches futures, ou sur les arguments essentialistes de « vision du monde » (corrélationisme langue/culture) ou de cosmovision, ou encore sur l'argument substantialiste de l'attrition patrimoniale. Ces trois arguments alimentent davantage, dans une logique dialectique, le rejet de ce paradigme chez nombre de linguistes et sociolinguistes, qu'ils n'aident à la compréhension du problème réel, qui touche avant tout au respect du pluralisme, de la dignité des conditions de vie des populations concernées par l'attrition de leurs langues, et de l'existence humaine.
- Published
- 2007
28. Le patrimoine linguistique du TLFQ
- Author
-
ZOTTI, VALERIA, GIOVANNI DOTOLI, and V. Zotti
- Subjects
DOCUMENTATION LINGUISTIQUE ,LEXIQUE ,FRANÇAIS QUÉBÉCOIS - Abstract
L'étude présente les ressources electroniques (fiches lexicales et bases de données) qui sont élaborées par l'équipe du Trésor de la Langue Française au Québec et qui sont mises à la disposition des chercheurs en linguistique.
- Published
- 2007
29. Posséder le dena’ina : Luttes autour de l’appropriation d’une langue autochtone en Alaska
- Author
-
Bell, Lindsay and Bell, Lindsay
- Abstract
Dans ce texte, je me baserai sur le cas du dena’ina, une langue autochtone de l’Alaska, pour montrer que le discours sur les « langues en danger » s’appuie sur une définition de la langue, de l’identité et du territoire qui se présente comme naturelle et essentielle, mais qui est en réalité un terrain de luttes discursives traversées par des rapports de pouvoir. La construction de l’identité ethnolinguistique repose en effet sur des processus de définition et de légitimation du dena’ina qui induisent des phénomènes d’inclusion/exclusion pour les Dena’ina. D’autre part, différents acteurs sont impliqués dans des luttes pour le pouvoir de définir la langue dena’ina et, donc, les pratiques linguistiques et sociales qui comptent comme étant légitimement du dena’ina. Ceci m’amène à interroger par ailleurs la façon dont le chercheur, à travers son discours et son intervention sur le terrain, est également impliqué dans ces luttes discursives et dès lors dans la production et la reproduction d’idéologies et de rapports de pouvoir., This article examines how language, identity and territory are defined and connected in discourses of « language endangerment ». Drawing on fieldwork with learners of Dena’ina Athabascan, an Alaska Native Language, I propose that language, identity and territory are terrains for complex discursive struggles which may reveal how social relations are constructed and contested. I focus on the various actors, past and present, who have defined what counts as Dena’ina, and by extension which linguistic and social practices are deemed « legitimate » Dena’ina. I consider the ways in which the researcher, through their contributing discourses and engagements in the field, are equally implicated in discursive struggles and therefore in the (re)production of ideologies and relations of power.
- Published
- 2008
- Full Text
- View/download PDF
30. « Tu pourrais enregistrer un corpus pour moi ? » Pour une charte de qualité des corpus
- Author
-
Michaud, Alexis, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), and Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Phonothèque de recherche ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,Données de la recherche ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,bases de données phonétiques ,Bases de données multimédia ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Documentation linguistique ,[SHS.MUSEO]Humanities and Social Sciences/Cultural heritage and museology ,Bases de données scientifiques ,Données linguistiques ,Science ouverte - Abstract
Ce document constitue la version soumise au congrès. Celle-ci a valu, en coulisses, quelques remontrances à la directrice de recherche de l'étudiant, de l'avoir laissé soumette à un colloque de phonétique un manifeste aux accents de pamphlet. S'agissant d'une toute première publication scientifique, l'auteur, conscient de la fragilité de sa position (étudiant qui se mêlait de donner des leçons), a choisi de filer doux et de nuancer son propos. Des modifications importantes ont été réalisées, conformément aux souhaits des relecteurs. La version finale, archivée dans HAL (hal-00130156), diffère de la soumission initiale jusque dans son titre : le « titre-pétard » de la soumission initiale a été remisé en faveur d'un titre moins provocateur (ce qu'avaient regretté des lecteurs du document dans sa version première). Mais, du fait d'une petite erreur lors de la mise en ligne des Actes, c'est la version soumise (le présent document) qui a été mise en ligne, et qui y est toujours à la date de 2017. Ce document, au titre plus parlant que la version finale, est donc versé à l'archive HAL.; International audience; The time-consuming task of archiving and disseminating data is not a priority with most phoneticians. As a result, finding a suitable ready-made corpus is no easy task; researchers often rely on corpora of questionable value. Looking back at a century of speech recording, the legacy is not as extensive—and nowhere as tidy—as the layman would think. This paper calls for a " Corpus quality standard ". The argument (based on detailed examples) is that small-scale programs adhering to simple standards can actually go to build the databases we need. A quality standard would make data publication easier (thus fostering research) and allow for a smoother transition into the shelves of libraries, fulfilling the phoneticians' key role in documenting the languages of the world.; La réflexion part d'un constat paradoxal: les bases de données sonores abritées par les centres de recherches en phonétique sont relativement peu développées. Les centres de recherche assurent rarement le suivi des documents enregistrés par leurs chercheurs. Le présent article, qui se place principalement du point de vue de la conservation des langues en danger, présente une réflexion sur le rôle que pourraient jouer des « phonothèques universitaires », centres de diffusion mais aussi de création de bases de données.
- Published
- 2002
31. Création, diffusion et archivage de bases de données des langues rares : enjeux scientifiques et méthodes
- Author
-
Michaud, Alexis, Université Sorbonne Nouvelle - Paris 3 - UFR Littérature, Linguistique, Didactique (USN LLD), Université Sorbonne Nouvelle - Paris 3, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacqueline Vaissière
- Subjects
Diversité des langues ,Données de la recherche ,Collecte de données ,Diversité linguistique ,Bases de données ,Phonologie ,Archivage ,Phonétique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Documentation linguistique ,Documentation phonétique - Abstract
The time-consuming task of archiving and disseminating data is not a priority with most phoneticians. Looking back at a century of speech recording, the legacy is not as extensive—and nowhere as tidy—as the layman would think. The argument of the present memoir (based on detailed examples) is that small-scale programs adhering to simple standards can gradually contribute to building the databases we need. A quality standard would make data publication easier (which would be conducive to better research) and allow for a smoother transition of newly recorded data sets to institutional repositories, fulfilling phoneticians' key role in documenting the languages of the world.; La réflexion part d'un constat paradoxal: les bases de données sonores abritées par les centres de recherche en phonétique sont relativement peu développées. Les centres de recherche assurent rarement le suivi des documents enregistrés par leurs chercheurs. Le présent mémoire, qui se place principalement du point de vue de la conservation des langues en danger, présente une réflexion sur l'enjeu de la documentation des langues rares pour les sciences phonétiques. La réflexion porte sur les questions de conservation et de diffusion, mais aussi sur la conception et la création de bases de données. Le point de départ du présent travail est l’idée selon laquelle il appartient aux linguistes d’aujourd’hui de consacrer une partie de leurs efforts à la conservation du patrimoine linguistique mondial, la théorie linguistique ayant tout à y gagner, à court terme comme à long terme.
- Published
- 2002
32. Conservation des langues et partage des ressources : le rôle des chercheurs dans la mise en place de banques de données
- Author
-
Michaud, Alexis, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Michaud, Alexis
- Subjects
base de données ,endangered languages ,langues rares ,databases ,langues menacées ,corpus oraux ,minority languages ,corpus ,corpora ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,phonothèque ,enregistrements ,conservation des langues ,language documentation ,recordings ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,databases of spoken language ,language preservation ,sound library - Abstract
Looking back at a century of speech recording, the legacy is not as extensive—and nowhere as tidy—as the layman would think. Research centres seldom keep track of the recordings made by their researchers. This paper, focusing primarily on endangered languages data, argues that a network of sound libraries associated with university libraries and research centres should be set up to build and disseminate corpora, following certain quality standards. Researchers could then have access to databases that would reflect the variety of research purposes as well as the variety of the world's languages., La réflexion part d'un constat paradoxal: les bases de données sonores abritées par les centres de recherches en phonétique sont relativement peu développées. Les centres de recherche assurent rarement le suivi des documents enregistrés par leurs chercheurs. Le présent article, qui se place principalement du point de vue de la conservation des langues en danger, présente une réflexion sur le rôle que pourraient jouer des « phonothèques universitaires », centres de diffusion mais aussi de création de bases de données.
- Published
- 2002
33. Posséder le dena’ina
- Author
-
Lindsay Bell
- Subjects
Social Sciences and Humanities ,endangered languages ,General Engineering ,Energy Engineering and Power Technology ,langue ,linguistic documentation ,identité ,Sciences Humaines et Sociales ,langues en danger ,documentation linguistique ,Bell ,Alaska ,identity ,Language - Abstract
Dans ce texte, je me baserai sur le cas du dena’ina, une langue autochtone de l’Alaska, pour montrer que le discours sur les « langues en danger » s’appuie sur une définition de la langue, de l’identité et du territoire qui se présente comme naturelle et essentielle, mais qui est en réalité un terrain de luttes discursives traversées par des rapports de pouvoir. La construction de l’identité ethnolinguistique repose en effet sur des processus de définition et de légitimation du dena’ina qui induisent des phénomènes d’inclusion/exclusion pour les Dena’ina. D’autre part, différents acteurs sont impliqués dans des luttes pour le pouvoir de définir la langue dena’ina et, donc, les pratiques linguistiques et sociales qui comptent comme étant légitimement du dena’ina. Ceci m’amène à interroger par ailleurs la façon dont le chercheur, à travers son discours et son intervention sur le terrain, est également impliqué dans ces luttes discursives et dès lors dans la production et la reproduction d’idéologies et de rapports de pouvoir., This article examines how language, identity and territory are defined and connected in discourses of « language endangerment ». Drawing on fieldwork with learners of Dena’ina Athabascan, an Alaska Native Language, I propose that language, identity and territory are terrains for complex discursive struggles which may reveal how social relations are constructed and contested. I focus on the various actors, past and present, who have defined what counts as Dena’ina, and by extension which linguistic and social practices are deemed « legitimate » Dena’ina. I consider the ways in which the researcher, through their contributing discourses and engagements in the field, are equally implicated in discursive struggles and therefore in the (re)production of ideologies and relations of power.
34. D'un corpus à l'autre D'une étude reproductible et portable du discours direct nisvai à la comparaison linguistique
- Author
-
Jocelyn Aznar, Centre de Recherche et de Documentation sur l'Océanie (CREDO), École des hautes études en sciences sociales (EHESS)-Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Poibeau, Thierry, Parmentier, Yannick, and Schang, Emmanuel
- Subjects
portabilité ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,corpus de terrain ,comparaison linguistique ,reproductibilité ,documentation linguistique ,langues orales ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
À partir d'une étude comparative en cours du discours direct à travers des documentations linguistiques de langues orales peu documentées, nous proposons une réflexion sur la reproductibilité et la portabilité d'une recheche en linguistique. L'enjeu est de porter l'étude du discours direct réalisées sur le corpus de narrations nisvaies, une langue orale du Vanuatu, à d'autres corpus de langues orales. Les annotations de ces corpus ont été amendés et normalisées par les efforts combinés des projets DoReCo et QUEST. Nous verrons que si la reproductibilité d'une étude sur une langue facilite sa critique, la question de la portabilité d'une étude vers d'autres corpus requiert que ces derniers répondent à des normes et unités interopérables aussi bien d'un point de vue informatique que linguistique.
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.