Back to Search Start Over

Detection of weak signals in weakly structured data masses

Authors :
Alain Bouju
Guillaume Chiron
Michel Ménard
Julien Maitre
Laboratoire Informatique, Image et Interaction - EA 2118 (L3I)
Université de La Rochelle (ULR)
Source :
Recherche d’Information, Document et Web Sémantique, Recherche d’Information, Document et Web Sémantique, ISTE OpenScience, 2019, 3 (1), ⟨10.21494/ISTE.OP.2020.0463⟩
Publication Year :
2019
Publisher :
HAL CCSD, 2019.

Abstract

International audience; This paper is related to a project aiming at discovering weak signals from different streams of information, possibly sent by whistleblowers in a platform as GlobalLeaks. The study presented in this paper tackles the particular problem of clustering topics at multi-levels from multiple documents, and then extracting meaningful descriptors, such as weighted lists of words for document representations in a multi-dimensions space. In this context, we present a novel idea which combines Latent Dirichlet Allocation and Word2Vec (providing a consistency metric regarding the partitioned topics) as potential method for limiting the "a priori" number of cluster k usually needed in classical partitioning approaches. We proposed 2 implementations of this idea, respectively able to: (1) finding the best k for LDA in terms of topic consistency; (2) gathering the optimal clusters from different levels of clustering. We also proposed a non-traditional visualization approach based on a multi-agents system which combines both dimension reduction and interactivity.; L'étude présentée s'inscrit dans le cadre du développement d'une plateforme d'analyse automatique de documents associée à un service sécurisé lanceurs d'alerte, de type GlobalLeaks. Cet article se focalise principalement sur la recherche de signaux faibles présents dans les documents. Il s'agit d'une problématique investiguée dans un grand nombre de champs disciplinaires et de cadres applicatifs. Nous supposons que chaque document est un mélange d'un petit nombre de thèmes ou catégories, et que la création de chaque mot est attribuable en termes de probabilités à l'un des thèmes du document. Les catégories des documents transmis ne sont pas connues"a priori". Les mots-clés présents dans les documents représentatifs de ces catégories sont également inconnus. L'analyse des documents reçus doit simultanément permettre de découvrir les thèmes, classer les documents relativement à ces thèmes, détecter les mots-clés pertinents relatifs aux thèmes et enfin découvrir les mots-clés relevant d'un thème "signal faible" éventuel. Pour atteindre cet objectif, nous proposons une définition du signal faible qui conditionne l'approche conjointe modèle thématique / plongement lexical, et contraint le choix des méthodes LDA et Word2Vec. Nous proposons d'évaluer les partitions obtenues grâce à un indice de cohérence sur la collection de mots représentative de chaque thème obtenu. Les clusters obtenus sont ainsi plus cohérents au sens contextuel. La détection du cluster associé au signal faible est alors plus aisée et plus pertinente.

Details

Language :
French
ISSN :
25163280
Database :
OpenAIRE
Journal :
Recherche d’Information, Document et Web Sémantique, Recherche d’Information, Document et Web Sémantique, ISTE OpenScience, 2019, 3 (1), ⟨10.21494/ISTE.OP.2020.0463⟩
Accession number :
edsair.doi.dedup.....aa7acb2b8c47bd0e9ec6e87f146074d5