71 results on '"Cadot, Martine"'
Search Results
2. Bibliometric Delineation of Scientific Fields
- Author
-
Zitt, Michel, Lelu, Alain, Cadot, Martine, Cabanac, Guillaume, Glänzel, Wolfgang, editor, Moed, Henk F., editor, Schmoch, Ulrich, editor, and Thelwall, Mike, editor
- Published
- 2019
- Full Text
- View/download PDF
3. Evaluation of Text Clustering Methods and Their Dataspace Embeddings: An Exploration
- Author
-
Lelu, Alain, primary and Cadot, Martine, additional
- Published
- 2021
- Full Text
- View/download PDF
4. Document stream clustering: experimenting an incremental algorithm and AR-based tools for highlighting dynamic trends
- Author
-
Lelu, Alain, Cadot, Martine, and Cuxac, Pascal
- Subjects
Computer Science - Artificial Intelligence - Abstract
We address here two major challenges presented by dynamic data mining: 1) the stability challenge: we have implemented a rigorous incremental density-based clustering algorithm, independent from any initial conditions and ordering of the data-vectors stream, 2) the cognitive challenge: we have implemented a stringent selection process of association rules between clusters at time t-1 and time t for directly generating the main conclusions about the dynamics of a data-stream. We illustrate these points with an application to a two years and 2600 documents scientific information database.
- Published
- 2008
5. Document stream clustering : experimenting an incremental algorithm and AR-based tools for highlighting dynamic trends
- Author
-
Lelu, Alain, Cadot, Martine, and Cuxac, Pascal
- Subjects
B. Information use and sociology of information - Abstract
We address here two major challenges presented by dynamic data mining: 1) the stability challenge: we have implemented a rigorous incremental density-based clustering algorithm, independent from any initial conditions and ordering of the data-vectors stream, 2) the cognitive challenge: we have implemented a stringent selection process of association rules between clusters at time t-1 and time t for directly generating the main conclusions about the dynamics of a data-stream. We illustrate these points with an application to a two years and 2600 documents scientific information database.
- Published
- 2006
6. Statistically Valid Links and Anti-links BetweenWords and Between Documents: Applying TourneBool Randomization Test to a Reuters Collection
- Author
-
Lelu, Alain, Cadot, Martine, Kacprzyk, Janusz, editor, Guillet, Fabrice, editor, Ritschard, Gilbert, editor, Zighed, Djamel Abdelkader, editor, and Briand, Henri, editor
- Published
- 2010
- Full Text
- View/download PDF
7. Importance of Dataspace Embeddings when Evaluating Text Clustering Methods
- Author
-
Lelu, Alain, Cadot, Martine, Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Cadot, Martine
- Subjects
spectral clustering ,kernel expansion ,graph partition ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,linkage method ,kernel clustering ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,[STAT.OT] Statistics [stat]/Other Statistics [stat.ML] ,evaluation method ,[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,correspondence analysis ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Okapi tf-idf ,method comparison ,K-Means ,Laplacian spectral decomposition ,Salton tfidf ,Latent Dirichlet Allocation ,Normalized Matrix Factorization ,text clustering ,hierarchical clustering ,chi-square metrics - Abstract
International audience; Fair evaluation of text clustering methods needs to clarify the relations between 1)pre-processing, resulting in raw term occurrence vectors, 2)data transformation, and 3)method in the strict sense. We have tried to empirically compare a dozen well-known methods and variants in a protocol crossing three contrasted open-access corpora in a few tens transformed dataspaces. We compared the resulting clusterings to their supposed "ground-truth" classes by means of four usual indices. The results show both a confirmation of well-established implicit combinations, and good performances of unexpected ones, mostly in spectral or kernel dataspaces. The rich material resulting from these some 600 runs includes a wealth of intriguing facts, which needs further research on the specificities of text corpora in relation to methods and dataspaces.
- Published
- 2020
8. Statistically Valid Links and Anti-links BetweenWords and Between Documents: Applying TourneBool Randomization Test to a Reuters Collection
- Author
-
Lelu, Alain, primary and Cadot, Martine, additional
- Published
- 2010
- Full Text
- View/download PDF
9. Evaluation of text clustering methods and their dataspace embeddings: an exploration
- Author
-
Lelu, Alain, Cadot, Martine, Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Université Bourgogne Franche-Comté [COMUE] (UBFC)
- Subjects
chi-square ,Graph Clustering ,Text Mining ,LDA ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,Text Clustering ,graph partition ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,kernel clustering ,Benchmark ,Okapi ,Non-negative Matrix Factorization ,Clustering Methods ,Okapi tf-idf ,Cluster Analysis ,[INFO]Computer Science [cs] ,Gram matrix ,NMF ,Latent Dirichlet Allocation ,Normalized Matrix Factorization ,ACM collection ,spectral clustering ,kernel expansion ,tf-idf ,BM25 ,polynomial kernel ,linkage method ,Correspondence Analysis ,Evaluation method ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,method comparison ,Laplacian spectral decomposition ,K-Means ,Salton tfidf ,Statistical Evaluation ,chi-square metrics ,Reuters' ModApté Split ,hierarchical clustering ,20 Newsgroups collection - Abstract
International audience; Fair evaluation of text clustering methods needs to clarify the relations between 1)pre-processing, resulting in raw term occurrence vectors, 2)data transformation, and 3)method in the strict sense. We have tried to empirically compare a dozen well-known methods and variants in a protocol crossing three contrasted open-access corpora in a few tens transformed dataspaces. We compared the resulting clusterings to their supposed "ground-truth" classes by means of four usual indices. The results show both a confirmation of well-established implicit combinations, and good performances of unexpected combinations, mostly in spectral or kernel dataspaces. The rich material resulting from these some 450 runs includes a wealth of intriguing facts, which needs further research on the specificities of text corpora in relation to methods and dataspaces.
- Published
- 2019
10. Recoder les variables pour obtenir un modèle implicatif optimal
- Author
-
Cadot, Martine, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Régis Gras, and Cadot, Martine
- Subjects
[STAT]Statistics [stat] ,Analyse Statistique Implicative ,variables quantitatives et qualitatives ,[INFO]Computer Science [cs] ,[INFO] Computer Science [cs] ,prédiction multi-catégorielle ,[STAT] Statistics [stat] - Abstract
A number of methods are available for deriving a categorization model of type XY out of a set of individual data, where X is a set of individual numerical features and Y their categories. We develop a brief overview of these methods by making use of the most popular ones for processing the well-known "Fisher’s Iris" dataset. The comparison of the resulting models encourages us to give preference to ISA (Implicative Statistical Analysis) for this specific type of data, on condition of a thorough recoding of the quantitative variables. This paper incorporates and expands a communication made during A.S.I.8 conference (Cadot et al. 2015) in which we show the interest of the chosen methodology (ISA after a specific recoding step) for the processing of acoustic data., Il existe un certain nombre de méthodes permettant d’obtenir à partir de données individuelles un modèle de catégorisation du type XY, X repré-sentant un ensemble de caractéristiques numériques des individus et Y leur ca-tégorie. Nous faisons un tour rapide de ces méthodes en appliquant les plus uti-lisées aujourd’hui au jeu de données des « Iris de Fisher ». La confrontation des divers modèles obtenus nous incite à privilégier l’A.S.I. (Analyse Statisti-que Implicative) pour traiter ce type de données, après un recodage particulier des variables quantitatives. Ce chapitre reprend et élargit une étude qui a fait l’objet d’une communication lors du colloque A.S.I.8 (Cadot et al. 2015) dans laquelle nous montrions l’intérêt de la méthodologie choisie (A.S.I. après re-codage particulier) pour le traitement de données acoustiques.
- Published
- 2016
11. Benchmarking seventeen clustering methods
- Author
-
Cadot, Martine, Lelu, Alain, Zitt, Michel, Speech Modeling for Facilitating Oral-Based Communication ( MULTISPEECH ), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Department of Natural Language Processing & Knowledge Discovery ( LORIA - NLPKD ), Laboratoire Lorrain de Recherche en Informatique et ses Applications ( LORIA ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Laboratoire Lorrain de Recherche en Informatique et ses Applications ( LORIA ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ), Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours - UFC ( ELLIADD ), Université Bourgogne Franche-Comté ( UBFC ) -Université de Franche-Comté ( UFC ), Laboratoire d'Études et de Recherches en Economie ( LERECO CEDRAN ), Institut National de la Recherche Agronomique ( INRA ), LORIA, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours - UFC (EA 4661) (ELLIADD), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université de Franche-Comté (UFC), Structures et Marché Agricoles, Ressources et Territoires (SMART), AGROCAMPUS OUEST-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Structures et Marché Agricoles, Ressources et Territoires (SMART-LERECO), AGROCAMPUS OUEST, Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours - UFC (UR 4661) (ELLIADD), Institut National de la Recherche Agronomique (INRA)-AGROCAMPUS OUEST, Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)
- Subjects
Quality measures ,[ INFO ] Computer Science [cs] ,Text mining ,Itemsets ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[ INFO.INFO-OH ] Computer Science [cs]/Other [cs.OH] ,[ SHS.INFO ] Humanities and Social Sciences/Library and information sciences ,[INFO]Computer Science [cs] ,Textual data ,Benchmark ,Classification metrics ,Clustering - Abstract
Version française en fichier complémentaire.; Supplementary material for the paper "Bibliometric delineation of scientific fields" to be published in Springer Handbook of quantitative Science and Technology Research 2018 edition, Wolfgang Glänzel editor
- Published
- 2018
12. Comparaison empirique de dix-sept méthodes de classification non-supervisée sur un corpus textuel
- Author
-
Cadot , Martine, Lelu , Alain, Zitt , Michel, Speech Modeling for Facilitating Oral-Based Communication ( MULTISPEECH ), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Department of Natural Language Processing & Knowledge Discovery ( LORIA - NLPKD ), Laboratoire Lorrain de Recherche en Informatique et ses Applications ( LORIA ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Laboratoire Lorrain de Recherche en Informatique et ses Applications ( LORIA ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ), Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours - UFC ( ELLIADD ), Université Bourgogne Franche-Comté ( UBFC ) -Université de Franche-Comté ( UFC ), Laboratoire d'Études et de Recherches en Economie ( LERECO CEDRAN ), Institut National de la Recherche Agronomique ( INRA ), and LORIA
- Subjects
Quality measures ,[ INFO ] Computer Science [cs] ,Text mining ,Itemsets ,[ INFO.INFO-OH ] Computer Science [cs]/Other [cs.OH] ,[ SHS.INFO ] Humanities and Social Sciences/Library and information sciences ,Textual data ,Benchmark ,Classification metrics ,Clustering - Abstract
Version française en fichier complémentaire.; Supplementary material for the paper "Bibliometric delineation of scientific fields" to be published in Springer Handbook of quantitative Science and Technology Research 2018 edition, Wolfgang Glänzel editor
- Published
- 2018
13. Du fichier audio à l’intonation en Français :Graphes pour l’apprentissage de 3 classes intonatives
- Author
-
Cadot, Martine, Bonneau, Anne, Cadot, Martine, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] - Abstract
International audience; L'analyse de l'intonation en Français est une tâche complexe. Partant de l'enregistrement audio d'une personne prononçant une phrase, il s'agit d'en extraire les paramètres prosodiques, puis de retrouver les différents types d'information que le locuteur a essayé de transmettre par ses changements de tonalité : phrase interrogative, déclarative, ou autre. Nous présentons ici en détail le processus complet de catégorisation statistique en trois types de phrases, de la collecte des données à l'interprétation des résultats, en passant par l'exposé de la méthode de traitement adaptée à notre problématique.
- Published
- 2016
14. Extraction d’un modèle articulatoire à partir d’une analyse tri-directionnelle de cinéradiographies d’un locuteur
- Author
-
Cadot, Martine, Laprie, Yves, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Cadot, Martine
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,3-way MDS (MultiDimensional Scaling) ,ACM: H.: Information Systems/H.3: INFORMATION STORAGE AND RETRIEVAL/H.3.3: Information Search and Retrieval ,ACM: I.: Computing Methodologies/I.5: PATTERN RECOGNITION ,M-SVM (Multiple Support Vector Machine) ,ACM: I.: Computing Methodologies/I.4: IMAGE PROCESSING AND COMPUTER VISION/I.4.7: Feature Measurement ,ACM: H.: Information Systems/H.5: INFORMATION INTERFACES AND PRESENTATION (e.g., HCI)/H.5.5: Sound and Music Computing/H.5.5.2: Signal analysis, synthesis, and processing ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,extraction de modèle articulatoire ,fouille de données spatio-temporelles ,ACM: I.: Computing Methodologies/I.2: ARTIFICIAL INTELLIGENCE/I.2.4: Knowledge Representation Formalisms and Methods ,algorithme INDSCAL - Abstract
Nous expérimentons ici un processus d’identification des sons de laparole à partir d’images, et non d’enregistrements sonores comme habituellementréalisé. Il s’agit de l’analyse de séquences cinéradiographiques d’unepersonne prononçant plusieurs phrases. Des difficultés se présentent. La première,technique, est que ces données proviennent d’images annotées en plusieurslieux, temps, et de manière semi-automatique ou manuelle. La deuxième,représentationnelle, est que les mouvements des articulateurs pendant la parole(langue, mâchoire, etc.) se situent dans un espace-temps complexe du fait desinterdépendances mécaniques multiples et dynamiques. Le modèle articulatoirele plus connu est celui de Maeda (1990), obtenu à partir d’Analyses en ComposantesPrincipales faites sur les tableaux de coordonnées des points des articulateursd’un locuteur en train de parler. Nous proposons ici une analyse tridirectionnelledu même type de données, après leur transformation en une suitede tableaux de distances. Nous validons notre modèle par la prédiction des sonsprononcés, qui s’avère presque aussi bonne que celle du modèle acoustique, etmême meilleure quand on prend en compte la coarticulation., For several reasons it is difficult to analyze the sequences of radiographs of a person talking.The first is technical: these data are images annotated in several places, times, in a semiautomaticor manual way. The second is representational: the movements of the articulatorsduring speech (tongue, jaw, etc.) are complex to describe because of multiple mechanical anddynamic interdependencies. When speaking, a speaker sets in motion a complex set of articulators:the jaw which opens more or less, the tongue which takes many shapes and positions,the lips that allow him to leave the air escaping more or less abruptly, etc.. The best-known articularymodel is the one of Maeda (1990), derived from Principal Component Analysis madeon arrays of coordinates of points of the articulators of a speaker talking. We propose a 3-wayanalysis of the same data type, after converting tables into distances. We validate our modelby predicting spoken sounds, which prediction proved almost as good as the acoustic model,and even better when coarticulation is taken into account.
- Published
- 2016
15. Transforming quantitative variables into qualitative ones: rationale and method. Application to French intonation
- Author
-
Cadot, Martine, Bonneau, Anne, Cadot, Martine, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
discriminant model research ,découpage de variables quantitatives ,robust data mining ,phonetic ,intonation ,Implication statistique ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,acoustic cues ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,fouille robuste de données ,recherche de modèle de discrimination ,indices acoustiques ,liaisons complexes entre variables ,[SPI.ACOU]Engineering Sciences [physics]/Acoustics [physics.class-ph] ,[STAT.AP]Statistics [stat]/Applications [stat.AP] ,[SPI.ACOU] Engineering Sciences [physics]/Acoustics [physics.class-ph] ,[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,phonétique ,quantitative versus qualitative variables ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,[SCCO.LING]Cognitive science/Linguistics ,melodic curves ,courbes mélodiques ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,complex links between variables ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,[SCCO.LING] Cognitive science/Linguistics ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,statistical implication - Abstract
L’interprétation d’une phrase en français dépend non seulement de ses mots, mais aussi de son intonation : interrogative, déclarative, dubitative, etc. Notre but est de construire un modèle statistique permettant de différencier les types intonatifs d’une phrase prononcée par un locuteur à partir des indices acoustiques issus de son enregistrement sonore. Pour étudier le lien entre la variable catégorielle « type de phrase » et les variables quantitatives d’indices acoustiques, il a fallu transformer ces dernières en variables catégorielles. Nous discutons ici des raisons statistiques qui peuvent imposer cette transformation et de la façon d’y procéder en nous plaçant d’un point de vue plus général et théorique avant d’appliquer ce formalisme aux données expérimentales recueillies., The interpretation of a French oral sentence depends not only on its word sequence but also on its intonation : interrogative, declarative, doubtful .... Our aim is build a statistical model able to differentiate various intonations and relying upon the acoustic cues extracted from sentences pronounced by French speakers. To study the connection between the categorical variable "type of sentence" and the quantitative variables stemming from the various acoustic cues considered in this study, it was necessary to transform the latter into qualitative variables. We discuss the statistical reasons that can impose this transformation and the way to carry it by considering a more general and theoretical point of view before applying this formalism to the collected experimental data.
- Published
- 2015
16. Méthodologie 3-way d'extraction d'un modèle articulatoire de la parole à partir des données d'un locuteur
- Author
-
Cadot, Martine, Laprie, Yves, Cadot, Martine, Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,[SPI] Engineering Sciences [physics] ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-SD] Computer Science [cs]/Sound [cs.SD] ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[SPI]Engineering Sciences [physics] ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,[INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD] ,fouille de données spatio-temporelles extraction de modèle articulatoire 3-way MDS (MultiDimensional Scaling) algorithme INDSCAL M-SVM (Multiple Support Vector Machine) ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,spatio-temporal data mining extraction of articulatory model 3-way MDS (MultiDimensional Scaling) INDSCAL algorithm M-SVM (Multiple Support Vector Machine) - Abstract
For speaking, a speaker sets in motion a complex set of articulators: the jaw that opens more or less, the tongue which takes many shapes and positions, the lips that allow him to leave the air escaping more or less abruptly, etc.. The best-known articulary model is the one of Maeda (1990), derived from Principal Component Analysis made on arrays of coordinates of points of the articulators of a speaker talking. We propose a 3-way analysis of the same data type, after converting tables into distances. We validate our model by predicting spoken sounds, which prediction proved almost as good as the acoustic model, and even better when co-articulation is taken into account., Pour parler, le locuteur met en mouvement un ensemble complexe d'articulateurs : la mâchoire qu'il ouvre plus ou moins la langue à laquelle il fait prendre de nombreuses formes et positions, les lèvres qui lui permettent de laisser l'air s'échapper plus ou moins brutalement, etc. Le modèle articulatoire le plus connu est celui de Maeda (1990), obtenu à partir d'Analyses en Composantes Principales faites sur les tableaux de coordonnées des points des articulateurs d'un locuteur en train de parler. Nous proposons ici une analyse 3-way du même type de données, après leur transformation en tableaux de distances. Nous validons notre modèle par la prédiction des sons prononcés, qui s'avère presque aussi bonne que celle du modèle acoustique, et même meilleure quand on prend en compte la co-articulation.
- Published
- 2014
17. Modèle des données à base de règles : de la construction au pilotage
- Author
-
Cadot, Martine, Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Régis Gras, Jean-Claude Régnier, Claudia Marinica, Fabrice Guillet, Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), and Cadot, Martine
- Subjects
[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] - Abstract
International audience; Le modèle formel de la logique mathématique permet de faire des raisonnements justes dans un monde abstrait, mais pas de produire de nouvel-les connaissances à partir de données réelles, approximatives et incomplètes. Le modèle que nous examinons dans cet article est le modèle de l'Analyse Sta-tistique Implicative, construit automatiquement à partir de données, qui a pour ambition de permettre des raisonnements utiles aux spécialistes de ces don-nées, c'est-à-dire généralisables à des données du même type et interprétables dans leur domaine scientifique. Nous montrons comment il dérive du modèle formel, ce qu'il en a gardé et ce qu'il a modifié, et son opérationnalisation dans le logiciel CHIC, qui en fait un outil convivial de raisonnement.
- Published
- 2013
18. Fouille d'images animées : cinéradiographies d'un locuteur
- Author
-
Busset, Julie, Cadot, Martine, Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Cadot, Martine
- Subjects
[STAT.AP]Statistics [stat]/Applications [stat.AP] ,[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[MATH.MATH-IT]Mathematics [math]/Information Theory [math.IT] ,[INFO.INFO-SD] Computer Science [cs]/Sound [cs.SD] ,[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[MATH.MATH-IT] Mathematics [math]/Information Theory [math.IT] ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing ,[INFO.INFO-IT]Computer Science [cs]/Information Theory [cs.IT] ,[INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD] ,[INFO.INFO-IT] Computer Science [cs]/Information Theory [cs.IT] ,[SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing ,[SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing - Abstract
National audience; L'analyse de séquences cinéradiographiques d'une personne prononçant plusieurs phrases présente des difficultés. La première, technique, est que ces données proviennent d'images annotées en plusieurs lieux, temps, et de manière semi-automatique ou manuelle. La deuxième, représentationnelle, est que les mouvements des articulateurs pendant la parole (langue, mâchoire, etc.) se situent dans un espace-temps complexe du fait des interdépendances mécaniques multiples et dynamiques. Nous décrivons dans cet article l'extraction d'un modèle articulatoire de la parole à partir des données, sans ajout de connaissances a priori, à l'aide d'une méthode de fouille de données. Ce modèle met au jour l'organisation des structures articulatoires du locuteur tant dans la dimension spatiale que dans la dimension temporelle. La confron-tation par l'expert de ce modèle aux mouvements attendus des articulateurs est un succès et nous invite à poursuivre dans cette voie.
- Published
- 2013
19. Démêler les actions des articulateurs en jeu lors de la production de parole avec le logiciel C.H.I.C. : Analyse de séquences de radiographies de la tête
- Author
-
Busset, Julie, Cadot, Martine, Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Cadot, Martine, Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), and Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,[INFO.INFO-IM] Computer Science [cs]/Medical Imaging ,échelonnement multidimensionnel ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,production de parole ,[STAT.OT] Statistics [stat]/Other Statistics [stat.ML] ,[INFO.INFO-SD] Computer Science [cs]/Sound [cs.SD] ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] ,algorithme INDSCAL ,fouille de données ,cinéradiographie ,[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD] ,[INFO.INFO-IM]Computer Science [cs]/Medical Imaging ,modèle articulatoire ,analyse implicative ,[SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing ,[SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing - Abstract
International audience; L'analyse d'images issues de ciné-radiographies d'une personne en train de parler présente des difficultés. La première de ces difficultés, d'ordre représentationnel, est que les mouvements des articulateurs (machoire, langue, etc.) à l'origine de la parole se situent dans un espace multidimensionnel complexe du fait des interdépendances mécaniques multiples et dynamiques. La deuxième, d'ordre technique, est que ces données sont issues d'annotations des images réalisées en plusieurs temps, lieux, et selon plusieurs techniques, manuelles ou semi-automatiques. Nous montrons dans cet article une utilisation de CHIC qui produit, à partir des données nettoyées et projetées dans un espace de dimension réduite, une représentation synthétique des liens entre les points des articulateurs : le graphe implicatif qui en résulte, montre, sans introduire de connaissances a priori, une séparation claire entre les structures articulatoires, groupées pour certaines, éclatées pour d'autres.
- Published
- 2012
20. Modélisation et extraction des liens complexes entre variables. Application à des données socio-économiques
- Author
-
Cadot, Martine, El Haj Ali, Dhouha, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Faculté des Sciences Economiques et de Gestion de Tunis (FSEGT), Université de Tunis El Manar (UTM), and Cadot, Martine
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[STAT.TH] Statistics [stat]/Statistics Theory [stat.TH] ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[STAT.TH]Statistics [stat]/Statistics Theory [stat.TH] ,[SHS.ECO] Humanities and Social Sciences/Economics and Finance ,[SHS.ECO]Humanities and Social Sciences/Economics and Finance ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] - Abstract
ISBN : 978270568181; National audience
- Published
- 2011
21. Estimation de l'impact de la décision du mariage sur la pauvreté des ménages tunisiens
- Author
-
El Haj Ali, Dhouha, Cadot, Martine, Faculté des Sciences Economiques et de Gestion de Tunis (FSEGT), Université de Tunis El Manar (UTM), Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), and Cadot, Martine
- Subjects
[QFIN.ST] Quantitative Finance [q-fin]/Statistical Finance [q-fin.ST] ,[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,[INFO.INFO-GT]Computer Science [cs]/Computer Science and Game Theory [cs.GT] ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[INFO.INFO-GT] Computer Science [cs]/Computer Science and Game Theory [cs.GT] ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,[QFIN.ST]Quantitative Finance [q-fin]/Statistical Finance [q-fin.ST] ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] - Abstract
National audience; L'objectif de ce papier est de déterminer quel type de mariage, des semblables ou des dissemblables, aggrave ou réduit la pauvreté. Pour cela, nous représentons d'abord la question fondamentale à étudier sous forme d'un arbre de décision extensif, estimé par une modélisation logistique séquentielle qui est appliquée sur des données individuelles tirées de la population de la Tunisie. Puis nous utilisons une deuxième méthode, MIDOVA, qui consiste à rechercher les associations complexes entre les variables. La complémentarité des deux méthodes nous permet de mesurer plus finement l'impact du mariage sur la pauvreté.).
- Published
- 2010
22. Liaisons complexes entre variables : les repérer, les valider. Application à l'économie du mariage
- Author
-
Cadot, Martine, El Haj Ali, Dhouha, Cadot, Martine, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Faculté des Sciences Economiques et de Gestion de Tunis (FSEGT), Université de Tunis El Manar (UTM), and Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[SHS.ECO]Humanities and Social Sciences/Economics and Finance ,[SHS.ECO] Humanities and Social Sciences/Economics and Finance - Abstract
National audience; Nous nous intéressons ici à un type particulier de complexité qui est celle des liaisons entre variables. Par exemple, en économie, la pauvreté d'un ménage est liée de façon complexe à la situation socio-économique des deux époux avant leur mariage. La première source de complexité vient de la variabilité des individus, ce qui invite à utiliser une modélisation statistique (modèles de régression, ANOVA, etc.) afin de mettre au jour et valider ces liaisons. Mais une deuxième source de complexité, qui rend inopérant ce cadre statistique classique, est le grand nombre de variables et la difficulté à leur attribuer un type bien défini (variables avec des valeurs manquantes, qualitatives ou ordinales, etc.), ce qui invite à se tourner vers des méthodes d'apprentissage plus souples. Nous présentons une telle méthode, à base de motifs, et nous l'illustrons en l'appliquant à des données issues d'un questionnaire portant sur des ménages tunisiens.
- Published
- 2010
23. Graphe de règles d'implication statistique pour le raisonnement courant. Comparaison avec les réseaux bayésiens et les treillis de Galois
- Author
-
Cadot, Martine, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), and Cadot, Martine
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] - Abstract
Titre : Analyse Statistique Implicative-une Méthode d'Analyse de Données pour la Recherche de Causalités / ISBN-13: 978-2854288971; National audience
- Published
- 2009
24. Geometric articulatory model adapted to the production of consonants
- Author
-
Laprie, Yves, Vaxelaire, Béatrice, Cadot, Martine, Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Linguistique, Langues et Parole (LILPA), Université de Strasbourg (UNISTRA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
International audience; This works deals with the construction of articulatory models which can be easily adapted to a new speaker and enable a better approximation of tongue contours corresponding to consonants. Data used are three corpora of X-ray films. The first corpus was used to construct an articulatory model and design an adaptation procedure. The evaluation carried out on the third corpus shows that this adaptation performs well. Geometric fitting provided by the first model was often insufficient in the region of the consonantal places of articulation of the second corpus. Tongue contours delineated from X-ray images were thus corrected by considering virtual articulatory targets and the weight of consonants was increased in the Principal Component Analysis (PCA). Furthermore, the coefficients of the linear components are not calculated by projecting contours onto the PCA base vectors, but with an optimization procedure so as to guarantee a good approximation in the constriction region of consonants.
- Published
- 2014
25. A Proposition for Fixing the Dimensionality of a Laplacian Low-rank Approximation of any Binary Data-matrix
- Author
-
Lelu, Alain, Cadot, Martine, Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Knowledge Information and Web Intelligence (KIWI), Department of Complex Systems, Artificial Intelligence & Robotics (LORIA - AIS), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
low-rank approximation ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[MATH.MATH-IT]Mathematics [math]/Information Theory [math.IT] ,randomization test ,Correspondence Analysis ,binary matrix ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-IT]Computer Science [cs]/Information Theory [cs.IT] ,graph Laplacian ,bipartite graph ,Cattell's scree ,dimensionality reduction ,intrinsic dimension - Abstract
International audience; Laplacian low-rank approximations are much appreciated in the context of graph spectral methods and Correspondence Analysis. We address here the problem of determining the dimensionality K* of the relevant eigenspace of a general binary datatable by a statistically well-founded method. We propose 1) a general framework for graph adjacency matrices and any rectangular binary matrix, 2) a randomization test for fixing K*. We illustrate with both artificial and real data.
- Published
- 2013
26. Détecter les ruptures thématiques dans les discours : synergie entre supervision et non-supervision
- Author
-
Lelu, Alain, Cadot, Martine, Knowledge Information and Web Intelligence (KIWI), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Machine Learning and Computational Biology (ABC), and Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2012
27. Combining Explicitness and Classifying Performance via MIDOVA Lossless Representation for Qualitative Datasets
- Author
-
Cadot, Martine, Lelu, Alain, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), and Centre National de la Recherche Scientifique (CNRS)
- Subjects
machine learning ,non-linear discrimination ,feature selection ,classification ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,itemset extraction ,user comprehensibility ,variable interaction ,feature construction ,symbolic discrimination - Abstract
accepted; International audience; Basically, MIDOVA lists the relevant combinations of K boolean variables, thus giving rise to an appropriate expansion of the original set of variables, well-fitted to for a number of data mining tasks. MIDOVA takes into account the presence as well as the absence of items. The building of level-k itemsets starting from level-k-1 ones relies on the concept of residue, which entails the potential of an itemset to create higher-order non-trivial associations. We assess the value of such a representation by presenting an application to three well-known classification tasks: the resulting success proves that our objective of extracting the relevant interactions hidden in the data, and only these ones, has been hit.
- Published
- 2012
28. Espace intrinsèque d'un graphe et recherche de communautés
- Author
-
Lelu, Alain, Cadot, Martine, Knowledge Information and Web Intelligence (KIWI), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), Machine Learning and Computational Biology (ABC), Frédéric Amblard, and Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
graphe sans échelle ,méthode densitaire de clustering ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,randomization test ,graphe petit monde ,graph ,density clustering method ,extraction de communautés ,graphe ,graph clustering ,dominant eigen-subspace ,Cattell's scree ,scale-free graph ,réduction de dimensions ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,graph Laplacian ,clustering de graphe ,dimension intrinsèque ,éboulis de Cattell ,laplacien d'un graphe ,test de randomisation ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,dimensionality reduction ,intrinsic dimension - Abstract
National audience; Determining the number of relevant dimensions in the eigen-space of a graph Laplacian matrix is a central issue in many spectral graph-mining applications. We tackle here the problem of finding out the "right" dimensionality of Laplacian matrices, especially those often encountered in the domains of social or biological graphs: the ones underlying large, sparse, unoriented and unweighted graphs, often endowed with a power-law degree distribution. We present here the application of a randomization test to this problem. After a small introductive example, we validate our approach first on an artificial sparse and scale-free graph, with two intermingled clusters, then on two real-world social graphs ("Football-league", "Mexican Politician Network"), where the actual, intrinsic dimensions appear to be 10 and 2 respectively ; we illustrate the optimality of the transformed dataspaces both visually and numerically, by means of a densitybased clustering technique and a decision tree.; La recherche de communautés dans un graphe se heurte à des problèmes épineux de représentation (formes convexes, recouvrantes, individus isolés...) dont l'abord optimal est réalisé par les méthodes spectrales, basées sur les dimensions propres du Laplacien de ce graphe. Déterminer le nombre de dimensions à prendre en considération est essentiel pour beaucoup d'applications. On s'attaque ici à ce problème dans le cadre de graphes non-orientés et non pondérés, qui inclut un type de graphe courant dans les applications de réseaux biologiques et sociaux, ceux munis d'une distribution des degrés de leurs noeuds en loi de puissance. Nous proposons à cet effet un test de randomisation, indépendant des lois de distribution. Après un petit exemple introductif, nous validons d'abord notre approche sur un graphe artificiel de ce type comportant deux communautés, puis sur deux graphes de test " Football League " et " Mexican Politician Network ", où nous montrons à partir des résultats d'une méthode densitaire de clustering le caractère optimal du nombre de dimensions extraites.
- Published
- 2011
29. Indexer, comparer, apparier des textes et leurs résumés : une exploration
- Author
-
Cadot, Martine, Aubin, Sylvain, Lelu, Alain, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Diatopie - Service de Recherche, Diatopie, Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), and Université Paris-Sud Orsay, laboratoire LIMSI
- Subjects
compression distance ,Hellinger distance ,morpho-syntactic tagging ,lemmatisation ,TF-IDF ,extraction de termes composés ,indexation ,lemmatization ,key-phrase mining ,distance de Hellinger ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,similarité textuelle ,étiquetage morpho-syntaxique ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,text similarity ,indexing ,distance de compression - Abstract
11 pages; National audience; Nous présentons ici la démarche qui nous a valu un score de 100% de réussite au défi DEFT 2011, et la première place ex-æquo, dans la tâche d'appariement de résumés avec des articles dépourvus d'introduction et de conclusion : nous avons testé plusieurs types d'indexation et de distance résumé-texte, et mis au point une méthode d'appariement, en univers fermé, robuste et sans nécessité d'information extérieure. En combinant quatre variantes de la distance de compression, indépendante de la langue et du type de codage, elle permet d'atteindre 93% ; les 100% sont atteints avec la distance de Hellinger appliquée à des textes indexés par des noms lemmatisés et des termes composés, distance qui surpasse ici la classique TF-IDF. Nous suggérons son application en univers ouvert, avec plus de textes que de résumés, et des résumés sans texte.
- Published
- 2011
30. Processing a Mayan Corpus for Enhancing our Knowledge of Ancient Scripts
- Author
-
Delprat, Bruno, Hallab, Mohamed, Cadot, Martine, Lelu, Alain, Institut National des Langues et Civilisations Orientales (Inalco), Centre d'Études des Langues Indigènes d'Amérique (CELIA), Institut de Recherche pour le Développement (IRD)-Institut National des Langues et Civilisations Orientales (Inalco)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Centre d'enseignement Cnam Paris (CNAM Paris), Conservatoire National des Arts et Métiers [CNAM] (CNAM), HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM)-HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM), Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), ESCE- University la Manouba (Tunisia), Nancy University (France), IGA (Morocco), IEEE Morocco section, Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria), Lelu, Alain, and ESCE- University la Manouba (Tunisia), Nancy University (France), IGA (Morocco), IEEE Morocco section
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] - Abstract
International audience; The ancient Maya writing comprises more than 500 signs, either syllabic or semantic, and is largely deciphered, with a variable degree of reliability. We applied to the Dresden Codex, one of the only three manuscripts that reached us, encoded for LATEX with the mayaTEX package, our graded representation method of hybrid non-supervised learning, intermediate between clustering and oblique factor analysis, and following Hellinger metrics, in order to obtain a nuanced image of themes dealt with: the statistical entities are the 214 codex segments, and their attributes are the 1687 extracted bigrams of signs. For comparison, we introduced in this approach an exogenous element, i.e. the splitting of the composed signs into their elements, for a finer elicitation of the contents. The results are visualized as a set of "thematic concordances": for each homogeneous semantic context, the most salient bigrams or sequences of bigrams are displayed in their textual environment, which sheds a new light on the meaning of some little understood glyphs, placing them in clearly understandable contexts.
- Published
- 2011
31. Representing interaction in multiway contingency tables: MIDOVA, CA and log-linear model
- Author
-
Cadot, Martine, Lelu, Alain, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), Jérôme Pagès, Jörg Blasius, and Michael Greenacre, and and Jérôme Pagès
- Subjects
categorical data ,N-way contingency table ,Interaction ,itemsets ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,loglinear model - Abstract
International audience; Beside CA and log-linear model, issued from the statistics domain, other research streams originating in Artificial Intelligence have coped with the interacting variables problem: we will present here the extension to categorical variables of our results on extracting and statistically validating " itemsets " in boolean datatables. We coined MIDOVA (Multidimensional Interaction Differential of Variation) our method for highlighting and representing complex links between qualitative variables, which includes interaction, well-suited to socio-economic data. We will compare it to the CA and log-linear model approaches, using the same 3-way example as Escofier and her colleagues. We will show that out method is effective for general N-way interactions (N may be far greater than 3), whether symmetrically or not, and results both in easy and detailed interpretability, as CA does, and in statistical significance testing, as the log-linear model does in the case of few variables.
- Published
- 2011
32. German non-native realizations of French voiced fricatives in final position of a group of words
- Author
-
Bonneau, Anne, primary and Cadot, Martine, additional
- Published
- 2015
- Full Text
- View/download PDF
33. Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots
- Author
-
Cadot, Martine, Zitt, Michel, Meurin, Gabriel, Lelu, Alain, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Études et de Recherches en Economie (LERECO CEDRAN), Institut National de la Recherche Agronomique (INRA), Unité de Recherches Animal et Fonctionnalités des Produits Animaux (URAFPA), Institut National de la Recherche Agronomique (INRA)-Université de Lorraine (UL), Knowledge Information and Web Intelligence (KIWI), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Institut des Sciences de la Communication du CNRS (ISCC), Centre National de la Recherche Scientifique (CNRS), and Sergio Bolasco
- Subjects
validation ,requête booléenne ,généralisation ,classification ,robustesse de partition ,expansion de requête ,nomenclature ,analyse de données textuelles ,stabilité de classification ,catégorisation de texte ,motif de mots ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; Les partitions d'ensembles de textes peuvent être d'origine endogène - provenir d'une classification non supervisée - ou exogène, par catégorisation a priori des textes par des experts. Dans les deux cas se pose la question du caractère généralisable des catégories qu'elles expriment. Dans le cadre de la recherche d'une meilleure catégorisation des domaines scientifiques, et à partir d'un extrait significatif de la base de référence Web of Science, nous avons appliqué la méthodologie classique de l'apprentissage automatique (sous-corpus distincts: apprentissage, ajustement, test) à une partition non supervisée du domaine de la génomique. Les résultats sur cet ensemble de 120 000 résumés d'articles font la preuve d'une qualité et d'une robustesse accrues quand on caractérise chaque partition, plutôt que par de simples termes, par des motifs de termes. Ces motifs spécifiques de chaque catégorie sont extraits par notre méthode Midova de sélection et détermination de liaisons complexes entre variables booléennes par "pulvérisation" des effectifs impliqués dans chaque relation n-aire.
- Published
- 2010
34. Statistically valid links and anti-links between words and between documents: applying TourneBool randomization test to a Reuters collection
- Author
-
Lelu, Alain, Cadot, Martine, Knowledge Information and Web Intelligence (KIWI), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), and Machine Learning and Computational Biology (ABC)
- Subjects
Randomization Test ,Text Mining ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,Unsupervised Learning ,Statistical Graph Extraction ,Robust Data Mining - Abstract
Collection : Studies in Computational Intelligence (Springer); International audience; Neighborhood is a central concept in data mining, and a bunch of definitions have been implemented, mainly rooted in geometrical or topological considerations. We propose here a statistical definition of neighborhood: our TourneBool randomization test processes an objects $\times$ attributes binary table in order to establish which inter-attribute relations are fortuitous, and which ones are meaningful, without requiring any pre-defined statistical model, while taking into account the empirical distributions. It ensues a robust and statistically validated graph. We present a full-scale experiment on one of the public access Reuters test corpus. We characterize the resulting word graph by a series of indicators, such as clustering coefficients, degree distribution and correlation, cluster modularity and size distribution. Another graph structure stems from this process: the one conveying the negative ``counter-relations'' between words, i.e. words which ``steer clear'' one from another. We characterize in the same way the counter-relation graph. At last we generate the couple of valid document graphs (i.e. links and anti-links) and evaluate them by taking into account the Reuters document categories.
- Published
- 2010
35. Évolution de l'agressivité et de la psychopathologie de patients post-traumatiques au cours d'une thérapie cognitive
- Author
-
Masson, Andre-Marie, Cadot, Martine, Nahama-Fourguette, Viviane, Université de Liège, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire Pierre Aigrain (LPA), Université Pierre et Marie Curie - Paris 6 (UPMC)-Université Paris Diderot - Paris 7 (UPD7)-Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SCCO.PSYC]Cognitive science/Psychology ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; The effects of overwelming experience on cognitions related to self efficacy and perception of an understandable world are particularly strong. Adaptation is impeded by aggressiveness and spontaneous somatic activation. A group of PTSD patients (N=20) paired with a control group (N=20) for gender, age and profession has been assessed in terms of aggressiveness (Buss and Perry) and general psychopathology (HSCL) before and after two sessions of cognitive therapy. Following results would be taken into account by the therapeutic options: PTSD patients scored higher on physical aggression and general psychopathology; men and women expressed aggressiveness differently; variations in evolution of aggressiveness and general psychopathology were noted according to profession; hostility could be a marker of the persistence of psychopathology.; Les cognitions relatives à l'efficacité personnelle et à la perception du monde comme compréhensible sont remises en question lors de l'expérience d'un traumatisme. L'adaptation est entravée par le passage à l'acte agressif et l'activation somatique spontanée. Un groupe de patients PTSD (N=20) apparié à un groupe contrôle (N=20) selon le sexe, l'âge et la profession a été étudié dans son expression de l'agressivité (Buss et Perry) et de la psychopathologie générale (HSCL) avant et après deux séances de thérapie cognitive. L'agressivité physique et la psychopathologie générale plus élevées chez les patents PTSD, le mode différent de manifestation de l'agressivité selon le sexe, l'évolution de l'agressivité et de la psychopathologie générale selon l'appartenance professionnelle des patients PTSD et l'hostilité comme marqueur potentiel de l'évolution du stress post traumatique sont autant de dimensions dont l'impact sur l'orientation de la thérapie est à prendre en compte.
- Published
- 2010
36. Graphes des liens et anti-liens statistiquement valides entre les mots d'un corpus textuel
- Author
-
Lelu, Alain, Cadot, Martine, Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Knowledge Information and Web Intelligence (KIWI), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Machine Learning and Computational Biology (ABC), Pierre Gançarski, and Jean-Gabriel Ganascia
- Subjects
randomization test ,data mining ,text mining ,[STAT.TH]Statistics [stat]/Statistics Theory [stat.TH] ,graph characterization statistics ,[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,statistical learning ,given-marginals random matrix ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Neighborhood graph ,statistically significant relation - Abstract
International audience; Neighborhood is a central concept in datamining, and a bunch of definitions have been implemented, mainly rooted in geometrical or topological considerations. We propose here a statistical definition of neighborhood: our TourneBool randomization test processes an ob-jects vs. attributes binary table in order to establish which inter-attribute relation is fortuitous, and which one is meaningful, out of any hypotheses on the underlying statistical distribu-tions, but taking into account these empirical distributions. It ensues a robust and statistically validated graph. A previous encouraging small-scale test led us to scale up the different phases of the process, making it possible to test it on one of the public access Reuters test corpus. We then characterized the resulting word graph with a series of well-known indicators, such as clustering coefficients, degree distribution and correlation, cluster modularity and size distribution. Another graph structure stems from this process: the one conveying the negative " counter-relations " between words, i.e. words which " steer clear " one from another. We characterize in the same way the counter-relations graph.
- Published
- 2009
37. Simuler et épurer pour extraire les motifs sûrs et non redondants
- Author
-
Cadot, Martine, Lelu, Alain, Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), and Stéphane Lallich, Philippe Lenca et Fabrice Guillet
- Subjects
Discrete Mathematics ,Document and Text Processing ,Statistics ,InformationSystems_DATABASEMANAGEMENT ,[STAT.TH]Statistics [stat]/Statistics Theory [stat.TH] ,[INFO.INFO-DM]Computer Science [cs]/Discrete Mathematics [cs.DM] ,[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Artificial Intelligence ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Modeling and Simulation ,Learning ,Theory ,Mathematics - Abstract
International audience; Our goal is twofold: 1) we want to mine the only statistically valid 2-itemsets out of a boolean datatable, 2) on this basis, we want to build the only higher-order non-redundant itemsets compared to their sub-itemsets. For the first task we have designed a randomization test (Tournebool) respectful of the structure of the data variables and independant from the specific distributions of the data. In our test set (193 texts and 888 terms), this leads to a reduction from 400,000 2-itemsets to 4000 significant ones, at the 95% confidence interval. For the second task, we have devised a hierarchical stepwise procedure (MIDOVA) for evaluating the residual amount of variation devoted to higher-order itemsets, yielding new possible positive or negative high-order relations. On our example, this leads to 2300 3-itemsets, 41 4-itemsets, and no higher-order ones, in a computationally efficient way.
- Published
- 2007
38. Extraction of Complex Relations in Humanistic : Statistics, Itemsets and Association Rules
- Author
-
Cadot, Martine, Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université de Franche-Comté, and Alain LELU, U. Franche-Comté
- Subjects
Statistical Interaction ,Text Mining ,Itemsets ,nettoyage et prétraitement des données ,motifs ,Machine Learning ,motifs flous ,significativité statistique ,Data Mining ,Fuzzy Itemsets ,interaction statistique ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,règles d'association ,règles floues ,fouille de textes ,Data Cleaning and Preprocessing ,Knowledge Discovery ,codage et recodage des données ,Association Rules ,fouille de données ,Randomisation Test ,extraction de connaissances ,test de randomisation ,Statistical Significance ,Fuzzy rules ,apprentissage artificiel - Abstract
Date de début de la rédaction : 2004; This thesis is about of Data Mining in Humanistic. This branch of Artificial Intelligence is a set of methods for extracting knowledge from electronic data. Among them, the itemsets and association rules extraction is a method to build a symbolic representation of the data structure, like the classical statistical methods makes, but, unlike these ones, it can work with complex and huge data. Therefore, this computer science model, obtained by counting of cooccurrences, is not easily used by scientists : it works with dichotomics data (True/False), the interpretation of its direct results is difficult, and its validity can seem of doubt for researchers working with statistics. We propose three techniques we constructed and experimented on real data to facilitate the use of the itemsets and association rules extraction by scientists : 1) With our randomisation test based on " exchanges in cascade " in the matrix subjects x properties, one can obtain the statistically significant links between properties 2) Our fuzzification of the itemsets and association rules extraction produces fuzzy association rules close to the fuzzy rules defined by researchers of fuzzy community around Zadeh 3) With our algorithm Midova one can only extract interactions, and 4) With our meta-rules, one can clean the association rules set of its principal contradictions and redundancies; Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons des techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d'utilisation que nous venons de décrire : 1) un test de randomisation à base d'échanges en cascade dans la matrice sujets x propriétés permet d'obtenir les liaisons statistiquement significatives entre deux propriétés, 2) une extension floue de la méthode d'extraction classique des motifs, qui produit des règles d'association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh, 3) MIDOVA, un algorithme extrayant les interactions n-aires entre variables - problème peu connu, peu abordé en informatique, et abordé avec de fortes limitations en statistiques - et 4) des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances.
- Published
- 2006
39. Coopération multiniveau d'approches non supervisées et supervisées pour la détection des ruptures thématiques dans les discours présidentiels français
- Author
-
Lelu, Alain, Cadot, Martine, Aubin, Sylvain, Knowledge Information and Web Intelligence (KIWI), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria), Machine Learning and Computational Biology (ABC), Diatopie - Service de Recherche, Diatopie, Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), and Lelu, Alain
- Subjects
[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,apprentissage automatique ,détection de changements thématiques ,fouille de textes ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] - Abstract
15 pages; International audience; Notre réponse à la tâche de détection des ruptures thématiques repose sur la construction d'un petit nombre d'indicateurs numériques à valeur croissante avec la probabilité pour une phrase d'être un début de paragraphe thématique, chacun traduisant un point de vue différent. Deux indicateurs expriment directement ce qu'on peut induire des débuts de phrases. Une phase de forte réduction de dimensions du problème, non supervisée, était un préalable pour les autres points de vues, que ce soit le rhétorique, où chaque phrase a été réduite à un vecteur à 100 dimensions, ou le sémantique, où chaque paragraphe a été réduit à 200 dimensions. Ce dernier cas a posé un difficile problème d'apprentissage de données complexes multiniveau, auquel nous avons apporté un début de réponse. L'apprentissage final par règles de décision de nos 5 indicateurs, perfectible, nous a conduit à des performances honorables par rapport aux autres équipes.
- Published
- 2006
40. Association Rules and Statistics
- Author
-
Cadot, Martine, Maj, Jean-Baptiste, Ziadé, Tarek, Analysis, perception and recognition of speech (PAROLE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), John Wang, Montclair State University, USA, Machine Learning and Computational Biology (ABC), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SPI.OTHER]Engineering Sciences [physics]/Other ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS] ,02 engineering and technology ,[STAT.TH]Statistics [stat]/Statistics Theory [stat.TH] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,association rules ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,statistics ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,020204 information systems ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,0202 electrical engineering, electronic engineering, information engineering ,020201 artificial intelligence & image processing - Abstract
Second Edition - ISBN : 978-1-60566-010-3; A manager would like to have a dashboard of his company without manipulating data. Usually, statistics have solved this challenge, but nowadays, data have changed (Jensen, 1992); their size has increased, and they are badly structured (Han & Kamber, 2001). A recent method—data mining—has been developed to analyze this type of data (Piatetski-Shapiro, 2000). A specific method of data mining, which fits the goal of the manager, is the extraction of association rules (Hand, Mannila & Smyth, 2001). This extraction is a part of attribute-oriented induction (Guyon & Elisseeff, 2003). The aim of this paper is to compare both types of extracted knowledge: association rules and results of statistics.
- Published
- 2005
41. Réduction d'un jeu de règles d'association par des méta-règles issues de la logique de 'sens commun'
- Author
-
Cadot, Martine, Di Martino, Joseph, Napoli, Amedeo, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Analysis, perception and recognition of speech (PAROLE), and G. Hébrail and L. Lebart and J.-M. Petit
- Subjects
association rules ,nettoyage d'ensemble de règles d'association ,méta-règles d'élagage ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,extraction de règles d'association ,data mining ,pruning meta-rules ,cleaning of association rules set ,fouille de données - Abstract
Poster. Colloque avec actes et comité de lecture. nationale.; National audience; Dans cet article, nous proposons un ensemble de méta-règles permettant de détecter dans un jeu de règles d'association certaines contradictions et redondances selon la logique du "sens commun". Notre méthodologie, appliquée sur un jeu de règles réduit par les techniques habituelles de seuillage, nous permet d'effectuer une réduction supplémentaire d'environ 50%. Nous étudions actuellement la possibilité de fournir à l'expert un ensemble plus riche de méta-règles et de techniques de nettoyage qu'il puisse paramétrer afin de rendre le jeu de règles optimal selon ses propres critères.
- Published
- 2004
42. Association Rules and Statistics
- Author
-
Cadot, Martine, primary, Maj, Jean-Baptiste, additional, and Ziadé, Tarek, additional
- Full Text
- View/download PDF
43. Assocation Rules and Statistics
- Author
-
Cadot, Martine, primary, Maj, Jean-Baptiste, additional, and Ziade, Tarek, additional
- Full Text
- View/download PDF
44. Règles d'association et 'Paradoxe de Simpson'
- Author
-
Cadot, Martine, Napoli, Amedeo, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
association rules ,statistical interaction ,indices statistiques ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,interaction statistique ,statistical indices ,simpson's paradox ,règles d'association ,paradoxe de simpson - Abstract
Rapport interne.; Les règles d'association sont des règles d'implication approximatives entre les propriétés des objets d'une base de données. Elles peuvent porter sur 2 propriétés, mais également sur un plus grand nombre de propriétés. Leur recherche fait partie du data mining, jeune science de l'informatique. En statistique, science plus ancienne de l'approximation, on a établi que le passage de deux à trois variables peut parfois déboucher sur une contradiction : c'est le paradoxe de Simpson. Nous détaillons dans cet article ce paradoxe, ainsi que la construction des règles d'association, afin de voir s'il est possible qu'apparaisse une telle contradiction dans un jeu de règles d'association.
- Published
- 2003
45. Règles d'association et interaction entre variables binaires
- Author
-
Cadot, Martine, Napoli, Amedeo, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP), Yadolah Dodge et Giuseppe Melfi, and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
association rules ,modèle loglinéaire ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,rule classification ,interaction ,text mining ,classification de règles ,loglinear model ,fouille de données ,règles d'association - Abstract
Colloque avec actes et comité de lecture. internationale.; International audience; Les analyses multidimensionnelles permettent l'étude de plusieurs variables en tenant compte de leurs liaisons. Nous nous intéressons ici à un type de liaison particulier, qui est l'interaction statistique. A travers le modèle log-linéaire, nous exposons ce qu'est l'interaction, et les précautions d'interprétation des liens entre variables qui en découlent. Puis nous examinons le formalisme d'extraction automatique de règles d'association, afin de voir si les problèmes d'interprétation liés à l'existence d'interactions se retrouvent, et nécessitent alors une correction du jeu de règles extrait.
- Published
- 2003
46. Comparaison de deux techniques d'extraction automatique de règles dans les bases de données. Illustration sur des données issues d'un questionnaire sur les peurs
- Author
-
Cadot, Martine, Napoli, Amedeo, Nahama-Fourguette, Viviane, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Pierre Aigrain (LPA), Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP), Université Pierre et Marie Curie - Paris 6 (UPMC)-Université Paris Diderot - Paris 7 (UPD7)-Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS Paris), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
fears ,frequent itemset search ,supports ,implication logique et statistique ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,confidence of arule ,thresholds ,seuils ,support of an itemset ,association rules ,confiance ,motifs fréquents ,peurs courantes ,méta-règles ,statistical implication ,règles d'association - Abstract
Rapport interne.; Nous exposons d'abord les principes à la base de ces deux techniques non supervisées d'extraction de règles dans les bases de données : d'un côté l'indice d'implication de Régis Gras, largement utilisé par les didacticiens, vise l'extraction de règles pour lesquelles l'effet du hasard est contrôlé statistiquement, de l'autre côté la recherche des motifs fréquents dans les grandes bases de données permet aux informaticiens de faire apparaître des associations remarquables sous forme de règles. Dans un deuxième temps nous essayons de comparer les ensembles de règles construits par ces deux techniques sur des données de sciences humaines issues d'un questionnaire sur les peurs, et de cet essai découle la question du sens de ces ensembles de règles : comment les rendre utilisables par les chercheurs du domaine dont sont issues les données ? || In this paper, we present two non supervised techniques for extracting association rules from databases. The first technique, called statistical implication, has been developed by Régis Gras and his colleagues, and is aimed at helping didacticians to desi
- Published
- 2003
47. Perfectionnisme : effets du sexe et de l'échec
- Author
-
Masson, André, Cadot, Martine, Ansseau, M., Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
perfectionnism ,validation ,validity ,dépression ,effet sexe-échec ,anxiété ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,gender ,perfectionnisme ,anxiety ,motivation multidimensionnelle ,failure ,peur de l'échec - Abstract
Article dans revue scientifique avec comité de lecture. nationale.; National audience; Le perfectionnisme intervient dans la genèse ou le maintien de nombreux troubles psychopathologiques. Deux échelles lui ont décerné un caractère multidimensionnel. Celle de Hewitt distingue un P.O.S. (perfectionnisme orienté vers soi), un P.P.A. (perfectionnisme prescrit par autrui) et un P.O.A. (perfectionnisme orienté vers autrui). Ce questionnaire a été validé en français auprès d'une population québécoise. Notre étude se base sur une population estudiantine de première candidature à l'université de Liège (N=617). L'échantillon a été étudié en fonction du sexe et de l'expérience de l'échec, c.-à-d. du fait d'avoir ou non redoublé une année scolaire. Elle vise d'abord à confirmer cette validation et à établir la consistance interne du questionnaire. Elle tente ensuite par son choix particulier de résultats d'analyses statistiques de différencier les sexes et les étudiants en échec selon les facteurs sélectionnés et certaines interactions sexe-échec. D'autres analyses plus fouillées aboutissent à un modèle qui prend en compte certaines dimensions du perfectionnisme et de la peur de l'échec. Les relations observées sont autant d'éléments éclairants sur les différences rapportées par la littérature concernée. Enfin elles confèrent au perfectionnisme une position plus centrale et dynamique que celle de simple trait de personnalité.
- Published
- 2003
48. Une optimisation de l'extraction d'un jeu de règles s'appuyant sur les caractéristiques statistiques des données
- Author
-
Cadot, Martine, Napoli, Amedeo, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
rule set pruning ,loi de zipf ,tableau de booléens ,frequent itemset level-wise search ,quality criteria ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,fouille de textes ,data mining ,pruning optimization ,zipf distribution ,seuils ,association rule extraction ,confiance ,threshold ,indice d'implication ,motifs fréquents ,simulations ,règles d'association - Abstract
Rapport interne.; Cet article présente un essai d'optimisation du jeu de règles extrait par la technique des motifs fréquents. Partant d'un tableau de données tiré d'un corpus de résumés d'articles scientifiques dans le domaine de la biologie moléculaire, on utilise les techniques usuelles d'extraction de règles d'association pour construire le jeu de règles associé aux données. On définit ensuite des règles « douteuses » par des techniques de simulation. On discute alors du choix de celles qu'il convient de supprimer afin d'optimiser le jeu de règles de départ. Les indices associés à ds régles extraites de données s'appuient généralement sur le support et la confiance. On mentionne dans l'article les résultats obtenus avec d'autres indices de qualité des règles utilisés actuellement en fouille de données. Enfin, on se réfère aux propriétés statistiques des données afin de préparer la voie à une optimisation des jeux de règles extraits de bases de données variées, ce qui donne des pistes de prolongement de ce travail. || This paper presents a study on the optimization of the set of rules that can be extracted from a set of data using the frequent itemset search methodology. The present experiment has been applied on a set of abstracts of biological texts. The association
- Published
- 2002
49. Version francophone du TASTE (Test for Ability to Study and Evaluation)
- Author
-
Masson, Andre-Marie, Cadot, Martine, Peirera, A.M., Depreeuw, E., Ansseau, M., Université de Liège, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
internal reliability ,stability over time ,validation ,dévalorisation ,échec ,test-anxiety ,stabilité temporelle ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,anxiete de l'examen ,consistance interne ,ability to study ,failure ,sexe - Abstract
Article dans revue scientifique avec comité de lecture.; S'inspirant des champs traditionnels de recherche ("test anxiety" et "need of achievement") des travaux sur l`attribution causale de Weiner et ceux de "self-efficacy" de Bandura, Eric Depreeuw, dans le cadre de la peur de l'echec, s'est aussi penche sur l'oeuvre de Heckhausen qui tente d'associer les modeles experimentaux a la complexite de la realite clinique. Le questionnaire (78 items) qu'il a elabore (VaSEV) evalue 4 facteurs : anxiete, confiance en soi, procrastination et valeur attribuee a la performance. C'est ce questionnaire que nous avons adapte en francais a partir de sa composition premiere (121 items). l'etude statistique menee aupres d'une population d'etudiants de premiere annee de l'universite de Liege (n=617) permet de confirmer l'etude initale, en optant toutefois pour une solution ajoutant un cinquieme facteur particulierement solide correspondant a la devalorisation. Le questionnaire a ete simplifie (50 items) en ne gardant, par facteur, que les 10 items les plus specifiques de chacun d'eux. Applique a l'echantillon etudie, le test s'avere performant et a permis de differencier la population concernee de maniere significative selon le sexe et l'experience de l'echec.
- Published
- 2001
50. Should Scientists Communicate Uncertainty to the Public in Health Controversies? The Case of Endocrine Disrupters’ Effects on Male Fertility
- Author
-
Maxim, Laura, primary, Cadot, Martine, additional, and Mansier, Pascale, additional
- Published
- 2012
- Full Text
- View/download PDF
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.