Pincemin, Bénédicte, Malrieu, Denise, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Driss Ablali, Sémir Badir, Dominique Ducard, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., Pincemin, Bénédicte, and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
coll. Rivages linguistiques, ISBN 978-2-7535-3492-6.; International audience; La caractérisation des textes d'un corpus peut être basée sur des jeux de mesures linguistiques ou stylistiques comme la longueur moyenne des phrases, la proportion des différentes catégories grammaticales, etc. La question abordée ici est celle du choix des mesures à utiliser, en étant attentif à leur cohérence d'ensemble et à leur interprétativité. Une dizaine de modèles de mesure génériques sont proposés, permettant de rapporter les caractérisations textuelles à des principes linguistiques descriptifs fondamentaux comme l'organisation paradigmatique et syntagmatique de la langue, la linéarité du texte, les liens de dépendance syntaxique. Ces modèles de mesure ont été implémentés dans le logiciel libre de textométrie TXM, et expérimentés sur un corpus de quatre textes littéraires français, finement annotés au niveau du discours représenté (discours direct, indirect, parole intérieure, etc.).