Back to Search Start Over

Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Authors :
Ruslan Kalitvianski
Valérie Bellynck
Christian Boitet
Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP )
Laboratoire d'Informatique de Grenoble (LIG )
Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
VISEO - Objet Direct
VISEO
Source :
HAL, FDC@EGC-2017, FDC@EGC-2017, Jan 2017, Grenoble, France, Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France

Abstract

International audience; Nous décrivons le problème de la segmentation de courriels représen-tant des conversations, c'est-à-dire contenant des courriels cités. Nous présen-tons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fon-dée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc pro-duit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.

Details

Database :
OpenAIRE
Journal :
HAL, FDC@EGC-2017, FDC@EGC-2017, Jan 2017, Grenoble, France, Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France
Accession number :
edsair.dedup.wf.001..b41bf9d879d59d51090540c41272b81d