1. FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain
- Author
-
Labrak, Yanis, Bazoge, Adrien, Dufour, Richard, Daille, Béatrice, Gourraud, Pierre‐antoine, Morin, Emmanuel, Rouvier, Mickaël, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Zenidoc, Traitement Automatique du Langage Naturel (LS2N - équipe TALN ), Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Nantes Université (Nantes Univ), La Clinique des Données [Nantes], Centre hospitalier universitaire de Nantes (CHU Nantes), ANR-20-CE23-0005,DIETS,Diagnostic automatique des erreurs des systèmes de transcription de parole end-to-end à partir de leur réception par les utilisateurs(2020), and ANR-20-THIA-0011,AIby4,AI by / for Human, Health and Industry(2020)
- Subjects
pharmacy ,FOS: Computer and information sciences ,Computer Science - Computation and Language ,French ,Modèle génératif ,Computer Science - Artificial Intelligence ,Retriever ,BM25 ,pharmacie ,Français ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Artificial Intelligence (cs.AI) ,Medical ,Transformers ,MCQA ,Médical ,[INFO]Computer Science [cs] ,Computation and Language (cs.CL) ,Multiple Choice Question Answering ,Generative model ,Question à choix multiple - Abstract
LOUHI Workshop; International audience; This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online.; Cet article présente FrenchMedMCQA, le premier jeu de données de questions à choix multiple (MCQA) en français disponible publiquement pour le domaine médical. Il est composé de 3 105 questions tirées d'examens réels du diplôme de spécialisation médicale française en pharmacie, mélangeant des réponses simples et multiples. Chaque instance du jeu de données contient un identifiant, une question, cinq réponses possibles et leur(s) correction(s) manuelle(s). Nous proposons également des modèles de référence pour traiter automatiquement cette tâche MCQA afin de signaler les performances actuelles et de mettre en évidence la difficulté de la tâche. Une analyse détaillée des résultats a montré qu'il est nécessaire d'avoir des représentations adaptées au domaine médical ou à la tâche MCQA : dans notre cas, les modèles spécialisés en anglais ont donné de meilleurs résultats que les modèles génériques en français, même si FrenchMedMCQA est en français. Le corpus, les modèles et les outils sont disponibles en ligne.
- Published
- 2022