1. Contributions to information extraction in a hospital data warehouse : an aid for clinical research
- Author
-
Cossin, Sébastien, Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), Université de Bordeaux, Vianney Jouhet, Gayo Diallo, and STAR, ABES
- Subjects
[SDV.MHEP] Life Sciences [q-bio]/Human health and pathology ,Information extraction ,Data visualization ,Electronic health record ,Natural language processing ,Traitement automatique de la langue ,Datavisualisation ,Machine learning ,Information Retrieval ,Dossier patient informatisé ,Recherche d'information ,Extraction d'information ,[SDV.MHEP]Life Sciences [q-bio]/Human health and pathology - Abstract
The development of digital technologies has led to the digitization of medical information and the transformation of paper records into electronic health records (EHRs). The data generated in a hospital contains valuable information for medical research. Hospitals have set up clinical data warehouses (CDW) to facilitate the secondary use of the data. In a CDW, researchers need to identify eligible patients for a clinical study and return to an EHR to complete the electronic case report form of a study. The main difficulty is the unstructured nature of the free text medical information. Natural language processing methods are needed to structure the data to facilitate its interrogation and retrieval. The objective of this thesis was to develop tools and methods to help researchers conduct feasibility studies and find information in an EHR. The main contributions of this thesis are the following: A French drug terminology. Many studies are looking at the use, efficacy, and tolerance of medicines in daily life. Medicines can also help to identify some diseases. The lack of a standardized drug terminology has led to the construction of Romedi, a French drug terminology, which offers good performance in detecting and identifying drugs in hospital data. A scalable semantic annotator. Semantic annotation consists of linking sequences of words in a document to concepts of a terminology. It enables the detection and indexing of medical concepts. How to index millions of documents in a CDW with medical terminologies containing several hundred thousand terms? In this work, we propose a new algorithm, IAMsystem, which is scalable to the size of a data warehouse and whose complexity depends little on the size of a terminology. An inventory of French medical abbreviations. Abbreviations are widely used in medicine. They add complexity to natural language processing tasks and must be taken into account by a semantic annotator. This work presents two algorithms to automatically detect abbreviations from a corpus of medical documents and offers the first inventory of abbreviations extracted from French hospital data. Linking hospital records to death certificates. The vital status of individuals is of central importance for many epidemiological studies and feasibility studies need to know whether eligible patients are alive or dead. Large volumes of data require a strategy to reduce the number of comparisons. We show that a vector space model offers excellent results in reducing the number of comparisons and that it is possible to automatically generate a gold standard from hospital data for linking hospital data and death certificates by machine learning. A web application to support the review of EHRs An interface, SmartCRF, has been developed to quickly search for information in an EHR. It comprises a lifeline, a search engine, a document viewer, and a recommendation system. Compared to the hospital software, it reduces the time spent on checking the inclusion and exclusion criteria of a feasibility study and facilitates the completion of an electronic case report., Le développement des technologies numériques a conduit à la numérisation des informations médicales et à la dématérialisation des dossiers papiers en dossiers patients informatisés (DPI). Les données générées dans un hôpital contiennent des informations précieuses pour la recherche médicale. Les hôpitaux ont mis en place des entrepôts de données (EDS) pour faciliter l’utilisation secondaire des données. Dans un EDS, les chercheurs ont besoin d’identifier les patients éligibles à une étude clinique et de retourner au DPI pour remplir le cahier d’observation électronique d’une étude. La principale difficulté réside dans le caractère non structuré des informations médicales présentes sous forme de texte libre. Des méthodes de traitement automatique de la langue sont nécessaires pour structurer les données afin de faciliter leur interrogation et leur extraction. L’objectif de cette thèse était de développer des outils et des méthodes pour aider les chercheurs à mener des études de faisabilité et à trouver des informations dans un DPI. Les principales contributions de cette thèse sont les suivantes: une terminologie sur les médicaments en langue française. De nombreuses études s’intéressent à l’utilisation, l’efficacité et à la tolérance des médicaments en vie réelle. Les médicaments permettent aussi d’identifier certaines maladies. L’absence d’une terminologie normalisée du médicament a conduit à la construction de Romedi, référentiel ouvert du médicament, qui offre de bonnes performances pour détecter et identifier les médicaments dans les données hospitalières. Un annotateur sémantique scalable à un entrepôt de données. L’annotation sémantique consiste à relier des séquences de mots d’un document aux concepts d’une terminologie. Elle permet la détection et l’indexation de concepts médicaux. Comment indexer des millions de documents d’un EDS avec des terminologies médicales contenant plusieurs centaines de milliers de termes ? Dans ce travail, nous proposons un nouvel algorithme, IAMsystem, scalable à l’échelle d’un entrepôt de données et dont la complexité dépend peu de la taille d’une terminologie. Un inventaire de sens des abréviations médicales. Les abréviations sont largement utilisées en médecine. Elles ajoutent de la complexité aux tâches de traitement automatique de la langue et doivent être prises en compte par un annotateur sémantique. Ce travail présente deux algorithmes pour détecter automatiquement des abréviations à partir d’un corpus de documents médicaux et propose le premier inventaire d’abréviations issu de données hospitalières en langue française. Une stratégie d’appariements de données hospitalières avec les certificats de décès Le statut vital des individus est d’une importance capitale pour de nombreuses études épidémiologiques et les études de faisabilité ont besoin de connaître si les patients éligibles sont vivants ou décédés. Les grands volumes de données nécessitent de recourir à un stratagème pour diminuer le nombre de comparaisons. Nous montrons qu’un modèle d’espace vectoriel offre d’excellents résultats pour diminuer le nombre de comparaisons et qu’il est possible de générer automatiquement un gold standard à partir de données hospitalières pour apparier données hospitalières et certificats de décès par apprentissage automatique. Une interface pour la revue des DPI. Une interface, SmartCRF, a été développée pour rechercher rapidement des informations dans un DPI. Elle est constituée d’une ligne de vie, d’un moteur de recherche, d’une visionneuse de documents et d’un système de recommandation. Par rapport au logiciel métier, elle permet de diminuer le temps passé à vérifier les critères d’inclusion et d’exclusion d’une étude de faisabilité et elle facilite le remplissage d’un cahier d’observation électronique.
- Published
- 2022