Back to Search Start Over

Navigation dans les rafales

Authors :
Brunet, Étienne
BCL, équipe Logométrie : corpus, traitements, modèles
Bases, Corpus, Langage (UMR 7320 - UCA / CNRS) (BCL)
Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS)
COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS)
COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)
J.M. Viprey
Presses universitaires de Franche-Comté
Source :
Actes des 8e JADT 2006, 8e JADT, 8e JADT, J.M. Viprey, Apr 2006, Besançon, France. pp.15-29
Publication Year :
2006
Publisher :
HAL CCSD, 2006.

Abstract

International audience; Les fonctions statistiques supposent habituellement une segmentation du corpus en textes séparés et sont fondées sur des fréquences ou des effectifs observés dans ces textes. Cette segmentation se justifie souvent parce que les textes rassemblés se distinguent par la date, le genre, l’auteur, le thème ou tout simplement le titre. Quand il s’agit d’œuvres distinctes, la partition du corpus semble aller de soi. Pourtant cela ne va pas parfois sans quelque arbitraire. Les nécessités du traitement posent souvent des problèmes de sélection, de jalons et de frontières et imposent des équilibres, des regroupements ou des sectionnements. Or paradoxalement la décision doit être prise avant que le traitement puisse l’éclairer. Au stade du traitement, la statistique, étant essentiellement comparative, est amenée à durcir les oppositions entre les parties de l’ensemble. Et la segmentation initiale, bonne ou mauvaise, se trouve alors artificiellement justifiée.Il serait de meilleure méthode de n’imposer aucune segmentation au départ de l’entreprise et de laisser à l’analyse du contenu le soin d’en suggérer une. C’est ainsi que procède souvent le dépouillement des enquêtes d’opinion : le texte libre est traité à plat, en continu, et si des balises permettent de se repérer dans le flux textuel, elles restent étrangères au traitement et permettent seulement d’interpréter les oppositions et les classements qui ont été obtenus sans leur concours. La présente communication s’inscrit dans cette démarche globale où les mots sont appréhendés dans le continuum du corpus, avec leurs sautes d’humeur, leurs silences et leur compagnonnage variable avec les mots voisins.

Details

Language :
French
Database :
OpenAIRE
Journal :
Actes des 8e JADT 2006, 8e JADT, 8e JADT, J.M. Viprey, Apr 2006, Besançon, France. pp.15-29
Accession number :
edsair.dedup.wf.001..026b1fb7965ff9b5254eb28db52af316