1. Do You Need Embeddings Trained on a Massive Specialized Corpus for Your Clinical Natural Language Processing Task?
- Author
-
Antoine, Neuraz, Vincent, Looten, Bastien, Rance, Nicolas, Daniel, Nicolas, Garcelon, Leonardo Campillos, Llanos, Anita, Burgun, Sophie, Rosset, Centre de Recherche des Cordeliers (CRC (UMR_S_1138 / U1138)), École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Université Paris Cité (UPCité), Service d'informatique médicale et biostatistiques [CHU Necker], Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-CHU Necker - Enfants Malades [AP-HP], Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP), Université Paris Cité (UPCité), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Université Paris Descartes - Paris 5 (UPD5)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU), Hôpital Européen Georges Pompidou [APHP] (HEGP), Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Hôpitaux Universitaires Paris Ouest - Hôpitaux Universitaires Île de France Ouest (HUPO), Laboratoire d'Informatique Médicale (LIM), Université de Rennes (UR), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), and Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE)
- Subjects
MESH: Rare Diseases ,Natural language processing ,Histological Techniques ,MESH: Histological Techniques ,Deep phenotyping ,MESH: Phenotype ,Ciliopathies ,Phenotypic similarity ,MESH: Natural Language Processing ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,electronic health records ,MESH: Language ,Patient similarity ,Rare disease ,MESH: Electronic Health Records ,Language - Abstract
We explore the impact of data source on word representations for different NLP tasks in the clinical domain in French (natural language understanding and text classification). We compared word embeddings (Fasttext) and language models (ELMo), learned either on the general domain (Wikipedia) or on specialized data (electronic health records, EHR). The best results were obtained with ELMo representations learned on EHR data for one of the two tasks(+7% and +8% of gain in F1-score).
- Published
- 2019
- Full Text
- View/download PDF