Back to Search Start Over

Research and development of innovative mathematical algorithms using cluster-based interactions of metagenomic data in biomedicine

Authors :
Champion, Camille
Institut de Mathématiques de Toulouse UMR5219 (IMT)
Université Toulouse 1 Capitole (UT1)
Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse)
Institut National des Sciences Appliquées (INSA)-Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3)
Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)
Institut des Maladies Métaboliques et Cardiovasculaires (I2MC)
Université Toulouse III - Paul Sabatier (UT3)
Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)
Institut National des Sciences Appliquées de Toulouse
Jean-Michel Loubès
Rémy Burcelin
Source :
Statistiques [math.ST]. Institut National des Sciences Appliquées de Toulouse, 2021. Français
Publication Year :
2021
Publisher :
HAL CCSD, 2021.

Abstract

The developement of new biotechnologies offers a large variety of biological datasets, extending the scope of biomedical research. These include genomic datasets, highly developed in statistical literature and metagenomic datasets, still relatively unknown, which require specific developments due to their special characteristics.The biological explored systems, represented using networks, enable us to model the functional relationships between its composing elements and to understand the underlying biological processes. In this context, this thesis provides mathematical studies of clustering algorithms and proper statistical tools to analyze these interactions. The first part of this thesis is dedicated to the development of a graph clustering algorithm, called CORE-clustering, to detect robustly representative variables, centers of specific variable clusters, within a high dimensional complex system. Specifically, we aim at highlighting these densely connected clusters, called CORE-clusters, forming major structures of the graph by only imposing, within each group, the minimal dimension and the minimal level of similarity. We then show through various applications the relevance of the CORE-clusters detected in the specific framework of genetic and road high dimensional networks.The second part of the thesis deals with the development of an extension of the spectral clustering algorithm which addresses the issue of identifying densely connected structures within a noisy graph, characteristic of real biological networks. Using the spectral clustering properties, this new variant, called l_1-spectral clustering enables to robustly bring out the natural hidden structure of the graph from the estimation of community indicators by imposing a lasso regularization. From a practical point of view, we show the stability of these estimators through various simulations, comparisons and biomedical applications. The third part of the thesis concerns the use of statistical tools, specifically adapted to the analysis of metagenomic datasets (intestinal microbiota genes). In the context of a clinical study conducted on patients suffering from liver pathologies at an early stage, we propose different strategies to identify the patients' clinical phenotypic profile and the microbial species involved in the development of the disease. To this end, we present a variety of exploratory, predictive and clustering methods used to identify groups of interacted bacteria and to understand the underlying mechanisms for the clinical trial. This information is the key to discover biomarkers, biological signatures categorizing patients in the disease. This clinical trial dealing with biomedical dataset from two diverse cohorts led us to develop fair learning approaches based on standard dimension reduction techniques to explain the total variabilities in the dataset while limiting the bias effect generated by the population's diversity, which is explored in the last part of the thesis.; L'essor de nouvelles biotechnologies permet actuellement de collecter une grande variété de données biologiques, élargissant ainsi le champ d'application de la recherche biomédicale. Parmi ces données, nous retrouvons notamment les données génomiques, dont la littérature dans le domaine statistique est très riche et les données métagénomiques, encore assez peu connues, qui nécessitent des développements particuliers dû à leur nature très différente. Les systèmes biologiques ainsi étudiés, représentés à partir de réseaux, permettent de modéliser les relations fonctionnelles entre les éléments qui les composent et d'en comprendre les processus biologiques sous-jacents. Dans ce contexte, cette thèse propose des développements autour de l'étude mathématique d'algorithmes de partitionnement et l'utilisation d'outils statistiques adaptés pour analyser ces interactions.La première partie de cette thèse est consacrée au développement d'un algorithme de clustering de graphe, appelé CORE-clustering, dédié à la détection robuste de variables représentatives, centres de clusters de variables spécifiques, au sein d'un système complexe de grande dimension. Plus précisément, nous cherchons à mettre en évidence ces clusters de variables très connectés, appelés CORE-clusters, formant des structures majeures du graphe en imposant seulement au sein de chaque groupe, d'une part, la dimension minimale et d'autre part, le niveau minimal de similarités. Nous montrons alors au travers de nombreuses applications la pertinence des CORE-clusters détectés notamment dans le cadre de réseaux génétiques et routiers de grandes dimensions.La deuxième partie de cette thèse concerne le développement d'une extension de l'algorithme du spectral clustering qui, traite de la problématique liée à l'identification de structures densément connectées au sein de graphes bruités, souvent caractéristiques des réseaux biologiques réels. En s'appuyant sur les propriétés du spectral clustering, cette nouvelle variante, appelée l_1-spectral clustering, permet de mettre en évidence les structures naturelles cachées du graphe au travers de l'estimation d'indicateurs de communautés en imposant une régularisation Lasso. D'un point de vue pratique, nous montrons la stabilité de ces estimateurs au travers de nombreuses simulations, comparaisons et applications biomédicales. La troisième partie concerne l'utilisation d'outils statistiques adaptés à l'analyse de données métagénomiques (gènes du microbiote intestinal). Dans le cadre d'une étude clinique réalisée sur des patients souffrant à un stade précoce, de pathologies hépatiques, nous proposons plusieurs stratégies afin d'identifier le profil phénotypique clinique type des patients ainsi que les espèces métagénomiques impliquées dans le développement de la maladie. Pour cela, nous proposons une variété de méthodes exploratoires, prédictives et de clustering de manière à mettre en évidence des groupements de bactéries présentant de fortes interactions et d'en comprendre les mécanismes sous-jacents pour l'étude de la pathologie. Cette information est essentielle pour la découverte de biomarqueurs, signatures biologiques classifiant les patients au sein de la maladie. Cette étude clinique, qui porte sur des données biomédicales issues de deux cohortes différentes, nous a amenés à développer dans cette dernière partie de la thèse, des méthodes statistiques adaptées. Nous proposons alors plusieurs approches d'apprentissage plus juste, basées sur des techniques de réduction de dimension standard afin de pouvoir expliquer l'ensemble des variabilités qui composent le jeu de données en limitant l'effet du biais engendré par la diversité des populations.

Details

Language :
French
Database :
OpenAIRE
Journal :
Statistiques [math.ST]. Institut National des Sciences Appliquées de Toulouse, 2021. Français
Accession number :
edsair.od......4074..c8e40920d0caca4a45c15f854abf12d0