Mourer, Alex, Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne) (SAMM), Université Paris 1 Panthéon-Sorbonne (UP1), Safran Aircraft Engines, Méthodes avancées d’apprentissage statistique et de contrôle (ASTRAL), Institut de Mathématiques de Bordeaux (IMB), Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1 (UB)-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1 (UB)-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Naval Group, Paris 1 - Panthéon-Sorbonne, Marie Chavent, Madalina Olteanu, and Jérôme Lacaille
My CIFRE thesis is a continuation of the theses conducted by Tsirizo Rabenoro (Rabenoro, 2015), Cynthia Faure (Faure, 2018), Florent Forest (Forest, 2021). The objective of this thesis is to develop a methodology to understand and highlight specific typologies of aircraft engine operation during reception tests carried out on test benches, and to help Safran Aircraft Engines' engineers in the design of their engines.From a theoretical point of view, the main challenge of this thesis is to model and explain the observed and unobserved physical phenomena using statistical methods and to interpret the cause using a (small) part of the explanatory variables. This work is therefore placed in the supervised and unsupervised framework, with a strong constraint, that of constructing interpretable models: we seek to indicate the contribution of each variable to the construction of the model, which is what we call measuring the importance of the variables. In addition, we seek to improve interpretability by constructing parsimonious models, i.e. such that the variables which do not contribute to their construction are excluded. In the unsupervised framework, methods for partitioning groups of observations, or \textit{clustering} methods, will be studied. The solution we are looking for must be able to be used in high dimension, must be interpretable and must be able to take into account the group structure of the variables. This type of method is known as sparse clustering methods. In the supervised framework, we propose methods modelling a phenomenon described by continuous (respectively categorical) variables, i.e. regression (respectively classification) methods. The same constraints are imposed as in the unsupervised case (handling high dimensional data, being sparse, indicating the importance of the variables, taking into account the group structures of the variables). Moreover, let us note that we want to model a physical phenomenon with the aim of explaining its principles and that we are therefore not (directly) interested in the predictive aspects. This point is extremely important because we will see that explaining a phenomenon and explaining the prediction of the associated model are two goals that can be contradictory.A specific feature of sparse algorithms is that they depend on a parameter to be adjusted (in the same way as clustering methods). Different values of this parameter give rise to different models and it is necessary to choose between all these models. Thus, it is essential to have an efficient model selection method. It must be emphasised that model selection is a major challenge in unsupervised clustering. Indeed, there is no universally accepted method to evaluate clustering results for the obvious reason that there is no ground truth against which the results can be compared. This is also the case when one is interested in variable selection (sparse models) and variable importance, even in the supervised framework, as one never has the set of variables and the variable importance defining the underlying phenomenon under study.; Mon travail de thèse CIFRE s’inscrit dans la continuité des thèses menées par Tsirizo Rabenoro (Rabenoro,2015), Cynthia Faure (Faure, 2018), Florent Forest (Forest, 2021). L’objectif de cette thèse est de développer une méthodologie pour comprendre et mettre en évidence des typologies spécifiques du fonctionnement des moteurs d’avion lors de tests de réception effectués sur des bancs d’essai, et d’aider les ingénieurs métier de Safran Aircraft Engines dans l’analyse des résultats.Du point de vue théorique, l'enjeu principal de ce travail de thèse est de modéliser et expliquer les phénomènes physiques observés et non observés à l'aide de méthodes statistiques et d'en interpréter la cause à l'aide d'une (petite) partie des variables explicatives. Ce travail se place donc dans le cadre supervisé et non supervisé, avec une contrainte forte, celle de construire des modèles interprétables: on cherche à indiquer la contribution de chaque variable à la construction du modèle, c'est ce que l'on appelle mesurer l'\emph{importance des variables}. En outre, on cherche à améliorer l'interprétabilité en construisant des modèles parcimonieux ou \emph{sparses} en anglais, c'est-à-dire tels que les variables qui ne contribuent pas à leur construction en soient exclues. Dans le cadre non supervisé, des méthodes de partitionnement de groupes d'observations, ou méthodes de \textit{clustering} en anglais, vont être étudiées. La solution que nous cherchons doit pouvoir s'utiliser en grande dimension, doit être interprétable et elle doit pouvoir tenir compte de la structure de groupes des variables. Ce type de méthode est connu sous le nom de méthodes de clustering sparse. Dans le cadre supervisé, nous proposons des méthodes modélisant un phénomène décrit par des variables continues (respectivement catégorielles), c'est-à-dire des méthodes de régression (respectivement de classification). On impose les mêmes contraintes que dans le cas non supervisé (gérer des données de grande dimension, être sparse, indiquer l'importance des variables, tenir en compte des structures de groupes de variables). Par ailleurs, remarquons que nous voulons modéliser un phénomène physique dans le but d'en expliquer les principes et donc que nous ne sommes pas (directement) intéressés par les aspects prédictifs. Ce point est extrêmement important car nous verrons qu'expliquer un phénomène et expliquer la prédiction du modèle associé sont deux buts qui peuvent être contradictoires.Une caractéristique propre aux algorithmes sparses est qu'ils dépendent d'un paramètre à ajuster (au même titre que les méthodes de clustering). Différentes valeurs de ce paramètre donnent naissance à différents modèles et il est nécessaire de choisir entre tous ces modèles. Ainsi, il est primordial de disposer d'une méthode de sélection de modèle efficace. Il faut insister sur le fait que la sélection de modèle est un défi majeur en clustering non supervisé. En effet, il n'existe pas de méthode universellement admise pour évaluer les résultats du clustering pour la raison évidente qu'il n'y a pas de vérité de terrain par rapport à laquelle les résultats pourraient être comparés. C'est aussi le cas lorsque l'on s'intéresse à la sélection de variables (modèles sparses) et à l'importance de variables, même dans le cadre supervisé, car on ne dispose jamais du \emph{vrai} ensemble de variables et des \emph{vraies} importances de variables définissant le phénomène sous-jacent étudié.