1. Imputation HLA dans des populations d’ancestralité composite grâce à des méthodes de réduction de dimension
- Author
-
Douillard, Venceslas and STAR, ABES
- Subjects
Immunogenomics ,Dimension reduction algorithms ,[SDV.MHEP] Life Sciences [q-bio]/Human health and pathology ,Immunogénomique ,Algorithmes de réduction de dimension - Abstract
Human genomics quickly evolved in the last decade thanks to technological advances in genotyping and sequencing, allowing for the growth of genome-wide association studies. Those studies repetitively brought light on the Major Histocompatibility Complex (MHC), and especially the HLA molecule which is key in immunity, for its association in infectious and autoimmune pathologies. The genetic diversity of the MHC technically hinders its investigation, therefore, statistical inference methods of the HLA were developed. This work revolves around the SNP-HLA Reference Consortium (SHLARC) which aims to gather genetic data from diverse populations in order to improve HLA imputation methods, currently optimised for European populations. Dedicated computation infrastructures are mandatory to rapidly create HLA imputation models, and their performance is linked to the number of polymorphisms and individuals available. Moreover, exploiting dimension reduction algorithms, such as UMAP, to synthesize genetic distances between individuals, it is possible to create populationspecific HLA imputation models which improve prediction in admixed and underrepresented populations. The SHLARC opens the door to HLA imputation for every genetic population. Consequently, it allows to conduct HLA association studies. Along with additional HLA studies, it helps identifying the biologicial mechanisms linking HLA and pathologies., La génomique humaine a rapidement évolué cette dernière décennie grâce aux avancées technologiques de génotypage et de séquençage, permettant l’essor des études d’associations en génome entier. Ces études ont mis en avant la région du Complexe Majeur d’Histocompatibilité (CMH) comme impliquée dans de nombreuses pathologies infectieuses et autoimmunes, et notamment le système HLA, molécules centrales de l’immunité. La diversité génétique de la région du CMH complexifie son étude détaillée. Ainsi des méthodes d’inférence statistique du HLA à partir de polymorphismes simples de l’ADN se sont développées. Ce travail s’articule autour du SNP-HLA Reference Consortium (SHLARC) qui vise à récolter des données génétiques diverses afin d’améliorer les méthodes d’imputation HLA qui sont actuellement optimisées pour des populations européennes. L’accès à une infrastructure de calcul dédiée est nécessaire pour créer rapidement des modèles d’imputation HLA, et leur performance dépend du nombre de polymorphismes et d’individus disponibles. De plus, en exploitant des algorithmes de réduction de dimension, comme l’UMAP, pour synthétiser les distances génétiques entre les individus, il est possible de créer des modèles d’imputation HLA spécifiques d’une population génétique qui améliorent la prédiction dans les populations d’ancestralité composite ou peu représentées. Le SHLARC ouvre ainsi la porte à l’imputation HLA pour toutes les populations génétiques. En conséquence, il facilite la conduite d’études d’association HLA. Avec d’autres pans de l’analyse HLA, il permet d’identifier les mécanismes biologiques exacts à l’origine du du lien entre le HLA et des pathologies.
- Published
- 2022