Back to Search
Start Over
Le projet SegCor. Pour une segmentation multi-niveaux des corpus de langue parlée en interaction
- Source :
- HAL, Séminaire InSitu / ICAR, Séminaire InSitu / ICAR, Heike Baldauf-Quilliatre; Kristine Lund, Jun 2018, Lyon, France
-
Abstract
- International audience; Cette présentation décrira l'approche méthodologique et les différents problèmes posés par la segmentation multi-niveaux de corpus oraux dans le projet franco-allemand SegCor (SEGmentation de CORpus oraux, ANR-15-FRAL-0004), qui réunit l'IDS (Institut für Deutsche Sprache) de Mannheim, le LLL (Laboratoire Ligérien de Linguistique) d'Orléans et le laboratoire ICAR de Lyon. Ce projet a pour but de développer une méthode de segmentation utilisable pour l'analyse de la parole-en-interaction dans différentes perspectives et pour différentes communautés de chercheurs.À partir des banques de données ESLO et CLAPI pour le français et FOLK pour l'allemand, un corpus pilote de 10 extraits de 10 minutes d'interactions de nature différente a été constitué pour établir un jeu de données comparable dans les deux langues. Différentes approches de segmentation décrites en syntaxe, en prosodie, en linguistique interactionnelle et en linguistique de corpus ont alors été choisies et mises en œuvre par les trois équipes de recherche.Au sein de notre laboratoire, les niveaux de segmentation macrosyntaxique et microsyntaxique ont fait l'objet d'un travail comprenant plusieurs phases. En nous appuyant sur les projets ANR Rhapsodie et ORFEO, nous avons envisagé des phases préliminaires d'annotation, l'évaluation de l'accord inter-annotateur, l'examen de cas critiques et de nouvelles phases d'annotation. Pour ces deux niveaux, le travail a été effectué sur le corpus pilote et l'implémentation du codage est en cours de formalisation à l'aide de protocoles spécifiques (guidelines). Pour l'annotation interactionnelle en unités de construction de tour (Turn Constructional Units), que nous développerons plus en détail, un projet exploratoire porte actuellement sur la discussion des différentes approches et des critères qui permettent d'objectiver le repérage de telles unités en français et en allemand.L'annotation prosodique en proéminences intonatives a fait l'objet d'une expérience de codage manuel et automatique sur la totalité du corpus pilote. Elle nous a amené à proposer quelques modifications au protocole Rhapsodie.Le niveau d'annotation du chunking, réalisé par le LLL, a bénéficié d'un travail d'apprentissage automatique sur corpus, avec correction manuelle.Dans cette présentation, nous ne nous pencherons pas seulement sur la description des différents niveaux de segmentation et des jeux d'étiquettes, mais aussi sur les questions de conception de procédures d'annotation et de comparaison de résultats, discutées entre les trois partenaires du projet. Nous aborderons également les enjeux méthodologiques et les contraintes techniques posées par certains logiciels (EXMARaLDA, PRAAT).
- Subjects :
- Spoken corpora
Approche comparative
Interactional linguistics
Annotation multi-niveaux
Prosodie
Macrosyntaxe
Multi-level annotation
Prosody
French Language
Français
Syntaxe
Comparative approach
Chunking
German Language
Linguistique interactionnelle
Macrosyntax
Syntax
Allemand
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
Corpus de langue parlée
Subjects
Details
- Database :
- OpenAIRE
- Journal :
- HAL, Séminaire InSitu / ICAR, Séminaire InSitu / ICAR, Heike Baldauf-Quilliatre; Kristine Lund, Jun 2018, Lyon, France
- Accession number :
- edsair.dedup.wf.001..3d301e1c7474c6bae8276184347a6bd7