Back to Search
Start Over
Maîtriser les déluges de données hétérogènes
- Source :
- Actes Corpus et traitement automatique des langues : pour une réflexion méthodologique, 1999, Cargèse, Italie. pp.37-46
- Publication Year :
- 1999
- Publisher :
- HAL CCSD, 1999.
-
Abstract
- Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite.
- Subjects :
- analyses quantitatives de données textuelles
informatique appliquée
textométrie
[SHS.INFO]Humanities and Social Sciences/Library and information sciences
[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing
linguistique informatique
[SHS.LANGUE] Humanities and Social Sciences/Linguistics
[SHS.INFO] Humanities and Social Sciences/Library and information sciences
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
linguistique de corpus
analyse de données textuelles
typologie des données textuelles
lexicométrie
traitement automatique de la langue naturelle
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
Subjects
Details
- Language :
- French
- Database :
- OpenAIRE
- Journal :
- Actes Corpus et traitement automatique des langues : pour une réflexion méthodologique, 1999, Cargèse, Italie. pp.37-46
- Accession number :
- edsair.dedup.wf.001..2c1dcdf155bf649b4b208f3445fcd1c8