1. A sparse logistic mixture model for disease subtyping with clinical and genetic data
- Author
-
Courbariaux, Marie, Szafranski, Marie, Dalmasso, Cyril, Danjou, Fabrice, Bekadar, Samir, Corvol, Jean-Christophe, Martinez, Maria, Ambroise, Christophe, Laboratoire de Mathématiques et Modélisation d'Evry (LaMME), ENSIIE-Université d'Évry-Val-d'Essonne (UEVE)-Institut National de la Recherche Agronomique (INRA)-Centre National de la Recherche Scientifique (CNRS), Sorbonne Université Maison des Modélisations Ingénieries et Technologies (SUMMIT), Sorbonne Université (SU), Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE), Institut du Cerveau et de la Moëlle Epinière = Brain and Spine Institute (ICM), Institut National de la Santé et de la Recherche Médicale (INSERM)-CHU Pitié-Salpêtrière [AP-HP], Sorbonne Université (SU)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Agence Technique de l'Information sur l'Hospitalisation (ATIH), ATIH, Institut de Recherche en Santé Digestive (IRSD ), Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Ecole Nationale Vétérinaire de Toulouse (ENVT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), ANR-16-CE37-0008,MeMoDeeP,Méthodes et Modèles pour la caractérisation phénotypique fine de la Maladie de Parkinson(2016), Courbariaux, Marie, Méthodes et Modèles pour la caractérisation phénotypique fine de la Maladie de Parkinson - - MeMoDeeP2016 - ANR-16-CE37-0008 - AAPG2016 - VALID, Institut National de la Recherche Agronomique (INRA)-Université d'Évry-Val-d'Essonne (UEVE)-ENSIIE-Centre National de la Recherche Scientifique (CNRS), Institut du Cerveau = Paris Brain Institute (ICM), Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-CHU Pitié-Salpêtrière [AP-HP], Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Université de Toulouse (UT)-Université de Toulouse (UT)-Ecole Nationale Vétérinaire de Toulouse (ENVT), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), and Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
- Subjects
[STAT.AP]Statistics [stat]/Applications [stat.AP] ,[SDV.BIBS] Life Sciences [q-bio]/Quantitative Methods [q-bio.QM] ,Disease subtyping with clinical and genotyping data ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,High-dimensionality and variable selection ,Longitudinal data ,Mixture (of experts) models ,Parkinson's disease ,[SDV.BIBS]Life Sciences [q-bio]/Quantitative Methods [q-bio.QM] - Abstract
This work proposes an original method for disease subtyping from both longitudinal clinical variables and genetic markers via a mixture of regressions model, with logistic weights function of a potentially large number of genetic variables. In order to address these large-scale problems, variable selection is an essential step. We thus propose to discard genetic variables that may not be relevant for clustering by maximizing a penalized likelihood via a Classification Expectation Maximization algorithm. The proposed method is validated on simulations. The approach is applied to a data set from a cohort of Parkinson's disease patients. Several subtypes of the disease as well as genetic variants potentially having a role in this typology have been identified.Identifying new genetic associations in non-Mendelian complex diseases is an increasingly difficult challenge. Yet, these diseases seem to have a significant part of heritability to explain. This missing heritability could be explained by the existence of subtypes involving different genetic factors. Taking genetic information into account in clinical trials can therefore be of interest to guide the process of subtyping a complex disease. Most methods dealing with multiple sources of information rely on data transformation, with two main tendencies regarding disease subtyping in that situation: i) the clustering of clinical data followed with posterior genetic analyzes and ii) the clustering of clinical and genetic variables. Both face limitations that we propose to leverage.This work proposes an original method for disease subtyping from both longitudinal clinical variables and high-dimensionnal genetic markers via a sparse mixture of regressions model. The added value of our approach lies in its interpretability regarding two aspects. First, our model links both clinical and genetic data with regard to their respective initial nature (i. e. without transformation) and does not need post-processing to come back to the original information to interpret the subtypes. Also, it can adress large-scale problems thanks to a variable selection step to discard genetic variables that may not be relevant for subtyping.The proposed method is validated on simulations. A dataset from a cohort of Parkinson's disease patients was also analyzed. Several subtypes of the disease as well as genetic variants having potentially a role in this typology have been identified., Ce travail propose une méthode pour le sous-typage de maladies à partir de variables cliniques longitudinales et de marqueurs génétiques via un modèle de mélange de régressions, avec des poids logistiques fonctions d'un nombre potentiellement important de variables génétiques. Pour traiter ce problème de grande dimension, la sélection des variables pertinentes est essentielle. Nous proposons donc d'exclure les variables génétiques qui ne seraient pas pertinentes pour la classification en maximisant une vraisemblance pénalisée par le biais d'un algorithme Classification Expectation Maximization. La méthode proposée est validée sur des simulations. L'approche est ensuite mise en application sur des données provenant d'une cohorte de patients atteints de la maladie de Parkinson. Plusieurs sous-types de la maladie ainsi que des variantes génétiques ayant un rôle potentiel dans cette typologie sont ainsi identifiés.
- Published
- 2021