Durant, Éloi, Diversité, adaptation, développement des plantes (UMR DIADE), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud])-Université de Montpellier (UM), Université de Montpellier, François Sabot, Eugénie Hébrard, Syngenta France SAS, Syngenta France, Université de Montpellier (UM), Institut de Recherche pour le Développement (IRD en Occitanie) (IRD (Occitanie)), Alliance of Bioversity International and the International Center for Tropical Agriculture (CIAT) [Rome] (Alliance), Consultative Group on International Agricultural Research [CGIAR] (CGIAR), Convention Cifre 2018/1475, and Université de montpellier
The popularization of sequencing technologies in the past twenty years led to a high increase of the number of sequenced genomes. The diversity of the newly sequenced reference genomes highlighted the biases of using a single reference, which is not enough to access all the diversity within a species. There are many examples of intraspecific variations within plants, including presence / absence and copy number variations. These variations can have a strong effect on plant phenotypes, as exemplified by the African rice in which the presence of the gene Sub1A is linked to drought tolerance. The concept of pangenome appeared to better integrate these variations within genomics approaches. A pangenome can be built from genes only or from any genomic fragments found within a group, and is useful to compare their distributions between multiple individuals. Depending on the presence rate, many categories of elements can be defined; the main ones are the elements present in all the individuals (part of the ‘core’ genome) and these absent in at least one of them (part of the ‘variable’ genome). Pangenomics still lacks tools, especially for visualization. This is particularly true for eukaryotes (including plants) which have larger and more complex genomes than bacteria. Pangenomes were first built for bacteria, but their related tools cannot properly work on bigger genomes. My PhD investigated the creation of novel visual representations and tools for the visualization of plant pangenomes (and eukaryotes in general).Within this dissertation, I introduce the state of the art of pangenome visualization: I distinguish pan-gene from pangenomes, the latter often being represented by pangenome graphs where each sequence is a node and each observed sequence succession forms an edge; I also identify unspecific, qualifying, positioned, structural and composite visualization tools. The first chapter introduce ten principles for creating a genomic visualization tool, for future biology or bioinformatics scientists interested in datavisualization. The second chapter describes my first pangenome visualization, published in the journal Bioinformatics under the name ‘Panache: a Web Browser-Based Viewer for Linearized Pangenomes’. I detail the visual representation used within Panache and the creation of the resulting web application built in JavaScript, enabling the dynamic exploration of pangenomic data. The third and final chapter details the design of a composite visualization tools for pangenomes, called SaVanache, and enabling the navigation between four view scales. There are four of them: one for global diversity, one for structural variations, one for the presence / absence variations, and one for nucleotide variations. I propose a new approach for the annotation and visual representation of structural variations within a pangenome graph, based on a pivot path within the graph used as a reference coordinate system.; La démocratisation des technologies de séquençage lors des vingt dernières années a entraîné une explosion du nombre de génomes séquencés. La diversité des génomes de référence ainsi disponible a mis en évidence les biais induits par l’utilisation d’une unique référence, qui n’est pas suffisante pour donner accès à la diversité au sein d’une espèce. Chez les plantes, de nombreux exemples de variations intraspécifiques ont été recensés, notamment de la variation en présence / absence ou en nombre de copies de gènes. Ces variations peuvent exercer une forte influence sur le phénotype des plantes, par exemple chez le riz où la présence d’un gène Sub1A est associée à une tolérance à l’inondation. Pour une meilleure intégration de ces variations en génomique, le concept de pangénome s’est progressivement développé. Un pangénome peut être construit aussi bien pour recenser des gènes que pour tous types de fragments génomiques présents au sein d’un groupe, et est utile pour comparer la répartition de ces éléments entre plusieurs individus. Plusieurs catégories d’éléments existent selon le taux de présence ; les deux principales recensent les éléments présents chez tous les individus (les éléments ‘core’) et ceux présents seulement chez certains (les éléments ‘variable’). La pangénomique souffre encore d’un manque d’outils, notamment pour sa visualisation. Ce manque est particulièrement vrai pour les eucaryotes (dont les plantes), aux génomes plus gros et complexes que les bactéries, premier domaine d’application des pangénomes et dont les outils existants ne supportent pas facilement le passage à l’échelle vers des génomes plus volumineux. Mes travaux de thèse ont donc porté sur la création de nouvelles représentations visuelles ainsi que la création d’outils de visualisation utilisables pour la visualisation de pangénomes de plantes, et d’eucaryotes en général.Dans ce manuscrit de thèse, je présente l’état de l’art de la pangénomique : j’y fais la distinction entre la notion de pan-gene atlas et de pangénome, le second étant souvent représenté sous la forme d’un graphe où chaque séquence forme un noeud et chaque succession observée de séquence forme des liens entre ces noeuds ; j’identifie également des outils de visualisation non spécifiques, qualitatifs, positionnés, structuraux, et enfin composites. Le premier chapitre recueille dix conseils pour créer un outil de visualisation de données génomiques, à l’attention de futurs chercheu·r·se·s en biologie ou bio-informatique qui s’intéresseraient à la data visualisation. Le second chapitre, décrit mon premier outil de visualisation de pangénome, publié dans le journal Bioinformatics sous le titre « Panache : a Web Browser-Based Viewer for Linearized Pangenomes ». J’y détaille la représentation visuelle utilisée dans Panache, jusqu’à la création d’une application web développée en JavaScript permettant l’exploration dynamique de données pangénomiques. Le troisième et dernier chapitre détaille le travail de conception d’un outil composite de visualisation de pangénomes, appelé SaVanache, permettant la navigation entre plusieurs niveaux d’échelle pangénomique. Quatre vues ont été identifiées : une vue de la diversité globale ; une vue des variations structurales ; une vue dédiée à la variation en présence / absence ; et une dernière vue dédiée au variations nucléotidiques. Je propose une nouvelle approche pour l’annotation et la représentation visuelle de variations structurelles au sein d’un graphe de pangénome, axée autour de la définition d’un chemin pivot servant de système de coordonnées principal.