1. Classification automatique du langage de données du service hospitalier des urgences
- Author
-
Xu, Binbin, Bourdois, Loïck, Gil-Jardine, Cédric, Tellier, Eric, Thiessard, Frantz, Avalos-Fernandez, Marta, Lagarde, Emmanuel, Avalos, Marta, Université de Bordeaux (UB), Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), CHU de Bordeaux Pellegrin [Bordeaux], Statistics In System biology and Translational Medicine (SISTM), Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)- Bordeaux population health (BPH), and Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM)
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,[STAT.AP]Statistics [stat]/Applications [stat.AP] ,Transformer ,[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,Neural Language Model ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,[SDV.SPEE] Life Sciences [q-bio]/Santé publique et épidémiologie ,[INFO.INFO-AU]Computer Science [cs]/Automatic Control Engineering ,[SDV.SPEE]Life Sciences [q-bio]/Santé publique et épidémiologie ,GPT-2 ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,[INFO.INFO-AU] Computer Science [cs]/Automatic Control Engineering ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,pre-training - Abstract
National audience; Des modèles basés sur l'architecture Transformer qui intègrent une étape de pré-entrainement non supervisé à objectif prédictif, tels que le GPT-2 (Generative Pretrained Transformer 2) ont atteint récemment des succès remarquables. Nous avons adapté et mis en oeuvre un modèle de traitement automatique du langage naturel (NLP pour Natural Language Processing) permettant de déterminer si un texte libre clinique est de nature traumatique ou non. Nous avons comparé cette approche, nécessitant un nombre d'échantillons annotés réduit, à une approche entièrement supervisée. Nos résultats (basés sur l'AUC et le F1-score) montrent qu'il est possible d'adapter un modèle polyvalent tel que le GPT-2 pour créer un outil puissant de classification de notes de texte libre en français avec seulement un très faible nombre d'échantillons labélisés.
- Published
- 2020