Joon Lee, Cathy A. Eastwood, Elliot Martin, Natalie Wiebe, Adam G. D'Souza, Chelsea Doktorchik, Bing Li, Hude Quan, Danielle A. Southern, Seungwon Lee, and Jason Jiang
Background: The initiatives of precision medicine and learning health systems require databases with rich and accurately captured data on patient characteristics. We introduce the Clinical Registry, AdminisTrative Data and Electronic Medical Records (CREATE) database, which includes linked data from 4 population databases: Alberta Provincial Project for Outcome Assessment in Coronary Heart Disease (APPROACH; a national clinical registry), Sunrise Clinical Manager (SCM) electronic medical record (city-wide), the Discharge Abstract Database (DAD), and the National Ambulatory Care Reporting System (NACRS). The intent of this work is to introduce a cardiovascular-specific database for pursuing precision health activities using big data analytics. Methods: We used deterministic data linkage to link SCM electronic medical record data to APPROACH clinical registry data using patient identifier variables. The APPROACH-SCM data set was subsequently linked to DAD and NACRS to obtain inpatient and outpatient cohort data. We further validated the quality of the linkage, where applicable, in these databases by comparing against the Alberta Health Insurance Care Plan registry database. Results: We achieved 99.96% linkage across these 4 databases. Currently, there are 30,984 patients with 35,753 catheterizations in the CREATE database. The inpatient cohort contained 65.75% (20,373/30,984) of the patient sample, whereas the outpatient cohort contained 29.78% (9226/30,984). The infrastructure and the process to update and expand the database has been established. Conclusions: CREATE is intended to serve as a database for supporting big data analytics activities surrounding cardiac precision health. The CREATE database will be managed by the Centre for Health Informatics at the University of Calgary, and housed in a secure high-performance computing environment. Résumé: Contexte: Les initiatives en matière de médecine de précision et les systèmes de santé apprenants ont besoin de bases de données riches et exactes sur les caractéristiques des patients. Nous présentons ici la base de données CREATE (Clinical Registry, Administrative Data and Electronic Medical Records), qui regroupe les données couplées de quatre bases de données populationnelles : le registre clinique national APPROACH (Alberta Provincial Project for Outcome Assessment in Coronary Heart Disease), le système de gestion des dossiers médicaux électroniques SCM (Sunrise Clinical Manager, utilisé à l’échelle municipale), la Base de données sur les congés des patients (BDCP), et le Système national d’information sur les soins ambulatoires (SNISA). Notre objectif est d’offrir une base de données portant précisément sur les maladies cardiovasculaires, afin de soutenir les activités en santé de précision nécessitant l’analyse de mégadonnées. Méthodologie: Nous avons utilisé une méthode de couplage déterministe pour apparier les données du système SCM à celles du registre APPROACH à l’aide de variables d’identification des patients. L’ensemble de données SCM-APPROACH a ensuite été couplé aux données de la BDCP et du SNISA, afin d’obtenir les données des cohortes des patients hospitalisés et des patients ambulatoires. Lorsque c’était possible, nous avons en outre validé la qualité du couplage en comparant les données à celles de la base de données du Régime d’assurance maladie de l’Alberta. Résultats: Nous avons obtenu un taux de couplage de 99,96 % pour les quatre bases de données. À l’heure actuelle, la base de données CREATE compte 30 984 patients ayant subi 35 753 cathétérismes. La cohorte des patients hospitalisés représente 65,75 % (20 373/30 984) de l’échantillon, tandis que la cohorte des patients ambulatoires représente 29,78 % (9226/30 984). L’infrastructure et le processus de mise à jour et d’expansion de la base de données ont été définis. Conclusions: La base de données CREATE est destinée à soutenir les activités d’analyse de mégadonnées nécessaires à la santé cardiaque de précision. Elle sera gérée par le Centre for Health Informatics de l’Université de Calgary et hébergée dans un environnement informatique à haut rendement sécurisé.