1. Regroupement sémantique de relations pour l'extraction d'information non supervisée
- Author
-
Wang, Wei, Besançon, Romaric, Ferret, Olivier, Grau, Brigitte, Laboratoire Vision et Ingénierie des Contenus (LVIC), Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Ferret, Olivier, Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), and Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE)
- Subjects
Relation Clustering ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Similarité Sémantique ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Extraction d’Information Non Supervisée ,Unsupervised Information Extraction ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,Semantic Similarity ,Clustering - Abstract
Most studies in unsupervised information extraction concentrate on the relation extraction andfew work has been proposed on the organization of the extracted relations. We present in thispaper a two-step clustering procedure to group semantically equivalent relations : a first stepclusters relations with similar expressions while a second step groups these first clusters intolarger semantic clusters, using different semantic similarities. Our experiments show the stabilityof distributional similarities over WordNet-based similarities for semantic clustering. We alsodemonstrate that the use of a multi-level clustering not only reduces the calculations from allrelation pairs to basic clusters pairs, but it also improves the clustering results., Beaucoup des recherches menées en extraction d’information non supervisée se concentrent sur l’extraction des relations et peu de travaux proposent des méthodes pour organiser les relations extraites. Nous présentons dans cet article une méthode de clustering en deux étapes pou rregrouper des relations sémantiquement équivalentes : la première étape regroupe des relations proches par leur expression tandis que la seconde fusionne les premiers clusters obtenus sur la base d’une mesure de similarité sémantique. Nos expériences montrent en particulier que le smesures distributionnelles permettent d’obtenir pour cette tâche de meilleurs résultats que les mesures utilisant WordNet. Nous montrons également qu’un clustering à deux niveaux permet non seulement de limiter le nombre de similarités sémantiques à calculer mais aussi d’améliorer la qualité des résultats du clustering
- Published
- 2013