1. An Overview of Record Linkage Methods: Applications and Perspective on Health Data
- Author
-
Bounebache, Said, Quantin, Catherine, Benzenine, Eric, Obozinski, Guillaume, Rey, Grégoire, Centre d'épidémiologie sur les causes médicales de décès (CépiDc), Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Paris Diderot - Paris 7 (UPD7), Service Biostatistiques et Informatique Médicale (CHU de Dijon) (DIM), Centre Hospitalier Universitaire de Dijon - Hôpital François Mitterrand (CHU Dijon), Laboratoire d'Informatique Gaspard-Monge (LIGM), Centre National de la Recherche Scientifique (CNRS)-Fédération de Recherche Bézout-ESIEE Paris-École des Ponts ParisTech (ENPC)-Université Paris-Est Marne-la-Vallée (UPEM), Université Paris Diderot - Paris 7 (UPD7)-Institut National de la Santé et de la Recherche Médicale (INSERM), and Université Paris-Est Marne-la-Vallée (UPEM)-École des Ponts ParisTech (ENPC)-ESIEE Paris-Fédération de Recherche Bézout-Centre National de la Recherche Scientifique (CNRS)
- Subjects
healthcare database ,réseau bayésien naïf ,mixed model ,record linkage ,couplage/appariement indirect ,modèle mixte ,[SDV.SPEE]Life Sciences [q-bio]/Santé publique et épidémiologie ,bases de données médicales et administratives ,naive bayes network - Abstract
International audience; Record linkage has become a powerful tool for public health, since the rise of medical and administrative database or cohort (Loth, 2015). This process allows matching individual's information obtained from different databases which don't have necessarily a common identifier. Furthermore, if such common identifier exists it could take a long time to obtain the necessary approval to use it. In France, the NIR is the identifier which is the most likely to be an identifier at the national level. However, in order to use the NIR, it is still compulsory to obtain the authorization from the CNIL even after the change of law concerning the modernization of the French Healthcare system. This paper presents a broad set of methods to perform record linkage, in particular the method proposed by Fellegi and Sunter and its extensions. The aim is to give some guidelines to researchers and to introduce some approaches to incorporate uncertainty associated with the linkage in their analysis. Mots-clés : couplage/appariement indirect, bases de données médicales et administratives, réseau bayésien naïf, mo-dèle mixte.; Le couplage des bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des bases de données administratives et de cohortes (Loth, 2015). Cette procédure consiste à faire correspondre des informations concernant un individu issues de base de données différentes sans pouvoir utiliser un identifiant unique. En France, dans le cas des données médicales et administratives, le Numéro d'Identification au Répertoire (NIR) est un exemple d'identifiant susceptible d'être utilisé pour servir de clé de couplage. Cependant ce dernier restera, en dépit de la loi du 26 janvier 2016 de modernisation de notre système de santé, difficile d'accès en raison de sa qualité d'identifiant direct commun à de nombreuses bases de données. Nous présentons les méthodes de chaînage susceptibles d'être utilisées par des chercheurs, en nous concentrant sur le modèle génératif de Fellegi et Sunter qui est une approche non supervisée, ainsi que sur quelques méthodes issues de l'apprentissage statistique. En-fin nous présentons rapidement différentes approches pour réaliser une analyse statistique sur des données appariées et comment répercuter l'incertitude de l'appariement dans l'analyse.
- Published
- 2018