Back to Search
Start Over
Utilisation conjointe LDA et Word2Vec dans un contexte d'investigation numérique
- Source :
- Extraction et Gestion des Connaissances 2017, Extraction et Gestion des Connaissances 2017, Jan 2017, Grenoble, France
- Publication Year :
- 2017
- Publisher :
- HAL CCSD, 2017.
-
Abstract
- National audience; L'étude présentée dans cet article s'inscrit dans le contexte du développement d'une plateforme d'analyse automatique de documents associée à un service caché lanceurs d'alerte focalisé sur la révélation de faits/événements/actions en lien avec des problématiques environnementales. Dans le but de traiter de manière automatique les documents textuels révélés par un lanceur d'alerte et portant sur un ou plusieurs faits relatifs à un événement déclencheur, nous proposons de développer un framework d'investigation qui doit répondre au besoin qu'ont les journalistes/politiques/juristes de se munir d'outils d'investigation et de représentation de l'information. Il a pour but de faciliter les expertises indépendantes, protéger les lanceurs d'alerte et aider à la détection des signaux faibles.Cet article se focalise sur le clustering thématique multi-niveaux de documents et l'extraction des indicateurs des thèmes. Nous étudions notamment la pertinence d'évaluer une approche s'appuyant sur du comptage de mots par une méthode récente de type "word embedding", word2vec. Nous proposons d'évaluer les partitions obtenues grâce à un indice de cohérence sur la collection de mots représentative de chaque thème obtenu. Deux algorithmes sont proposés. Le premier estime le nombre de thèmes le plus pertinent, et extrait ainsi sur ce niveau la collection de mots pour chacun des thèmes trouvés. Le second propose d'extraire les meilleurs collections de mots présentes sur des niveaux différents.
Details
- Language :
- French
- Database :
- OpenAIRE
- Journal :
- Extraction et Gestion des Connaissances 2017, Extraction et Gestion des Connaissances 2017, Jan 2017, Grenoble, France
- Accession number :
- edsair.dedup.wf.001..c31cba3ecae74dd7cdd2e6d2414f7b38