Siegwald, Léa, Centre d’Infection et d’Immunité de Lille - INSERM U 1019 - UMR 9017 - UMR 8204 (CIIL), Centre National de la Recherche Scientifique (CNRS)-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut Pasteur de Lille, Réseau International des Instituts Pasteur (RIIP)-Réseau International des Instituts Pasteur (RIIP), Université du Droit et de la Santé - Lille II, Yves Lemoine, Hélène Touzet, STAR, ABES, Genes Diffusion, Gènes Diffusion, Centre d'infection et d'immunité de Lille - Center for Infection & Immunity of Lille (CIIL), Université de Lille, Sciences et Technologies - Institut Pasteur de Lille - Réseau International des Instituts Pasteur (RIIP) - Institut National de la Santé et de la Recherche Médicale (INSERM) - IFR142 - Université de Lille, Droit et Santé - Centre National de la Recherche Scientifique (CNRS), Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189 (CRIStAL), Institut Mines-Télécom [Paris] - Centre National de la Recherche Scientifique (CNRS) - Université de Lille, Sciences Humaines et Sociales - Université de Lille, Sciences et Technologies - Ecole Centrale de Lille - Institut National de Recherche en Informatique et en Automatique (Inria), PEGASE-Biosciences, Institut Pasteur de Lille, Bourse ANRT n°2013/0920, Université de Lille, and Réseau International des Instituts Pasteur (RIIP)-Réseau International des Instituts Pasteur (RIIP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Centre National de la Recherche Scientifique (CNRS)
Targeted metagenomics is the study of the composition of microbial communities in diverse biological samples, based on the sequencing of a genomic locus. This application has boomed over the last decade thanks to the democratisation of high-throughput sequencing, and has allowed substantial progress in the study of microbial evolution and diversity. However, new problems have emerged with high-throughput sequencing : the exponential generation of data must be properly analyzed with bioinformatics tools fitted to the experimental designs and associated biological questions. This dissertation provides solutions to improve targeted metagenomics studies, by the development of new tools and methods allowing a better understanding of analytical biases, and a better design of experiments. Firstly, an expert assessment of the analytical pipeline used on the PEGASE-biosciences plateform has been performed. This assessment revealed the need of a formal evaluation method of analytical pipelines used for targeted metagenomics analyses. This method has been developed with simulated and real datasets, and adequate evaluation metrics. It has been used on several analytical pipelines commonly used by the scientific community, as well as on new analytical methods which have never been used in such a context before. This evaluation allowed to better understand experimental design biases, which can affect the results and biological conclusions. One of those major biases is the design of amplification primers to target the genomic locus of interest. A primer design software, adaptable to different experimental designs, has been specifically developed to minimize this bias. Finally, analytical guidelines and experimental design recommendations have been formulated to improve targeted metagenomics studies., La métagénomique ciblée, étude de la composition et de la diversité des communautés microbiennes présentes dans différents échantillon biologiques sur la base d'un marqueur génomique, a connu un véritable essor lors de cette dernière décennie grâce à l'arrivée du séquençage haut-débit. Faisant appel à des outils de biologie moléculaire et de bioinformatique, elle a été à l’origine de substantiels progrès dans les domaines de l’évolution et de la diversité microbienne. Cependant, de nouvelles problématiques sont apparues avec le séquençage haut-débit : la génération exponentielle de données soulève des problèmes d'analyse bioinformatique, qui doit être adaptée aux plans d'expérience et aux questions biologiques associées. Cette thèse propose des solutions d'amélioration des études de métagénomique ciblée par le développement d'outils et de méthodes innovantes, apportant une meilleure compréhension des biais d'analyse inhérents à de telles études, et une meilleure conception des plans d'expérience. Tout d'abord, une expertise du pipeline d'analyse utilisé en production sur la plate-forme PEGASE-biosciences a été menée. Cette évaluation a révélé la nécessité de mettre en place une méthode d'évaluation formelle de pipelines d'analyses de données de métagénomique ciblée, qui a été développée sur la base de données simulées et réelles, et de métriques d'évaluation adaptées. Cette méthode a été utilisée sur plusieurs pipelines d'analyse couramment utilisés par la communauté, tout comme sur de nouvelles approches d'analyse jamais utilisées dans un tel contexte. Cette évaluation a permis de mieux comprendre les biais du plan d'expérience qui peuvent affecter les résultats et les conclusions biologiques associées. Un de ces biais majeurs est le choix des amorces d'amplification de la cible ; un logiciel de design d'amorces adaptées au plan d'expérience a été spécifiquement développé pour minimiser ce biais. Enfin, des recommandations de montage de plan d'expérience et d'analyse ont été émises afin d'améliorer la robustesse des études de métagénomique ciblée.