Back to Search Start Over

Maîtriser les déluges de données hétérogènes

Authors :
Heiden, Serge
Lafon, Pierre
Illouz, Gabriel
Habert, Benoît
Fleury, Serge
Folch, Helka
Analyses de corpus linguistiques, usages et traitements (ANACOLUT)
Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI)
Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919)
Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE)
Condamines
Anne
Fabre
C.
Péry-Woodley
M. P.
Heiden, Serge
Condamines, Anne
Fabre, C.
Péry-Woodley, M. P.
Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919)
Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11)
Source :
Actes Corpus et traitement automatique des langues : pour une réflexion méthodologique, 1999, Cargèse, Italie. pp.37-46
Publication Year :
1999
Publisher :
HAL CCSD, 1999.

Abstract

Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite.

Details

Language :
French
Database :
OpenAIRE
Journal :
Actes Corpus et traitement automatique des langues : pour une réflexion méthodologique, 1999, Cargèse, Italie. pp.37-46
Accession number :
edsair.dedup.wf.001..2c1dcdf155bf649b4b208f3445fcd1c8