1. Contributions to variable selection in high-dimension and its uses in biology
- Author
-
Lacroix, Perrine, STAR, ABES, Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Institut des Sciences des Plantes de Paris-Saclay (IPS2 (UMR_9213 / UMR_1403)), Université d'Évry-Val-d'Essonne (UEVE)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Cité (UPCité)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Statistique mathématique et apprentissage (CELESTE), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Pascal Massart, and Marie-Laure Martin-Magniette
- Subjects
[STAT.AP]Statistics [stat]/Applications [stat.AP] ,[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,Variable selection ,Calibration de pénalités ,Sélection de variables ,High-Dimension ,Predictive risk and false discovery rate ,Risque prédictif et taux de fausses découvertes ,Heuristique de pente ,Penalty calibrations ,Gene identification ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Grande dimension ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,Identification de gènes ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,Slope heuristics - Abstract
The current data revolution is characterized by the proliferation of massive data in all areas of economic activity and in sciences as well. In particular, this scientific data revolution concerns molecular biology. The study of gene expression in an organism is the key example in this thesis. Gene expression data are typically characterized by a high number of descriptive variables for a limited number of observations. Identifying the relevant variables is a crucial step for data exploitation and interpretation. This thesis focuses on the issue of variable selection in the statistical framework of high-dimensional Gaussian linear regression. The core of our analysis is based on introducing new penalty functions for the least squares adjustment criterion. These penalties depend on constants, considered as hyperparameters to be calibrated on the available data set. The originality of our approach lies in introducing the False Discovery Rate (FDR) to perform this calibration. First, we establish theoretical lower and upper bounds of the FDR when the variables are ordered. Then we set up a calibration algorithm of the hyperparameter to satisfy a trade-off between the predictive risk control and the FDR one. To select non-ordered variables in the high-dimension setting, we revisit the topic of variable selection via the minimization of a convex criterion such as the Lasso. We propose an approach to select the variables, which are ordered by the regularization path, via an adaptive penalization method. Intensive simulations show the interest in resampling and in non-asymptotic penalties. We generalize the adaptive penalty calibration method called "the slope heuristics" to calibrate two hyperparameters simultaneously and in the context of a random model collection. Finally, our new algorithm and some variable selection procedures are applied to a transcriptomic dataset of Arabidopsis thaliana. The biological problem here consists in identifying transcription factors of target genes., La révolution des données que nous connaissons aujourd'hui se caractérise par la prolifération de données massives dans tous les domaines d'activités économiques, mais aussi dans les sciences. Cette révolution des données scientifiques concerne en particulier la biologique moléculaire. L'étude de l'expression des gènes d'un organisme est l'exemple clé mis en avant dans cette thèse. Les données d'expression de gènes sont typiquement caractérisées par un nombre élevé de variables descriptives pour un nombre d'observations restant limité. Identifier les variables pertinentes constitue une étape cruciale pour l'exploitation des données ainsi que leur interprétation. Cette thèse est centrée sur la question de la sélection de variables dans le cadre statistique de la régression linéaire gaussienne en grande dimension. Le cœur de notre analyse repose sur l'introduction de nouvelles fonctions de pénalité pour le critère d'ajustement des moindres carrés. Celles-ci dépendent de constantes, que nous voyons comme des hyperparamètres à calibrer sur le jeu de données d'étude. L'originalité de notre approche réside en l'introduction du False Discovery Rate (FDR) pour réaliser cette calibration. Dans un premier temps, nous prouvons un encadrement théorique du FDR lorsque les variables sont ordonnées, puis nous mettons en place un algorithme de calibration de l'hyperparamètre pour satisfaire un compromis entre le contrôle du risque prédictif et celui du FDR. Pour sélectionner des variables non-ordonnées en grande dimension, nous revisitons le thème de la sélection de variables via la minimisation d'un critère convexe de type Lasso. Nous proposons une approche qui consiste à choisir les variables, ordonnées par le chemin de régularisation, via une méthode de pénalisation adaptative. Des simulations intensives mettent en évidence l'intérêt du ré-échantillonage et des pénalités non-asymptotiques. Nous généralisons la méthode de calibration adaptative de pénalité dite "de l'heuristique de pente" à la calibration de deux hyperparamètres simultanément ainsi qu'au contexte d'une collection de modèles aléatoires qui est ici le nôtre. Enfin, notre nouvel algorithme, ainsi que certaines procédures de sélection de variables, sont appliqués sur un jeu de données transcriptomiques d'Arabidopsis thaliana. L'identification des facteurs de transcription de gènes cibles constitue ici la problématique biologique.
- Published
- 2022