1. Retrouver l’inventeur-auteur : la levée d'homonymies d'autorat entre les brevets et les publications scientifiques
- Author
-
Reymond, David, Khouilla, Heman, Wolff, Sandrine, Durand-Barthez, Manuel, Institut mediterranéen des sciences de l'information et de la communication (IMSIC), Aix Marseille Université (AMU)-Université de Toulon (UTLN), Laboratoire d'Économie Appliquée au Développement (LEAD), Université de Toulon (UTLN), Bureau d'Économie Théorique et Appliquée (BETA), Institut National de la Recherche Agronomique (INRA)-Université de Strasbourg (UNISTRA)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Centre Jean Mabillon (CJM), École nationale des chartes (ENC), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Unité Régionale de Formation à l'Information Scientifique et Technique de Paris (URFIST Paris), GIS Réseau URFIST dans le cadre du projetBrevets : http://gis-reseau-urfist.fr/brevets/, ainsi que les pôles Information, Prévention, Numérique et Santé etPôle Mer Environnement et Développement Durable (MEDD) de l’Université de Toulon, Univ. of Naples Federico II, and Michelangelo MISURACA, Germana SCEPI, Maria SPANO
- Subjects
Homonymy ,Homonymie ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,Désambiguïsation ,Brevets ,Publications ,Auteurs ,Inventeur ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Inventor ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Disambiguation ,Publication ,Patent ,Author - Abstract
International audience; Patents and scientific papers provide an essential source for measuring science and technology output, to be used as a basis for the most varied scientometric analyzes. Authors’ and inventors’ names are the key identifiers to carry out these analyses, which however, run up against the issue of disambiguation. By extension identifying inventors who are also academic authors is a non-trivial challenge. We propose a method using the International Patent Classification (IPC) and the IPCCAT API to assess the degree of similarity of patents and papers abstracts of a given inventor, in order to match both types of documents. The method is developed and manually qualified based on three corpora of patents extracted from the international EPO database Espacenet. Among a set of 4679 patents and 7720 inventors, we obtain 2501 authors. The proposed algorithm solves the general problem of disambiguation with an error rate lower than 5%.; Brevets d’invention et articles scientifiques représentent une source essentielle pour mesurer la productionscientifique et technologique, servant de base aux analyses scientométriques les plus variées. Les noms d’auteurs et d’inventeurs constituent un identifiant pivot pour réaliser ces analyses, mais ils nécessitent d’être désambiguïsés. Par extension l’identification des inventeurs qui sont également des auteurs académiques est un problème non trivial. Nous proposons une méthode utilisant la classification internationale des brevets et l’API IPCCAT pour évaluer le degré de similarité entre le résumé du brevet d’un inventeur donné et ceux des articles de personnes homonymes, afin d’apparier des deux types de documents. La méthode est développée et qualifiée manuellement sur trois corpus de brevets issus de la base internationale Espacenet de l’OEB. Sur un jeu de 4679 brevets et 7720 inventeurs, nous obtenons un résultat de 2501 auteurs. L’algorithme proposé résout le problème général de la levée d’homonymie avec un taux d’erreur inférieur à 5%.
- Published
- 2022