Shoemaker, Randy, Keim, Paul, Vodkin, Lila, Retzel, Ernest, Clifton, Sandra W, Waterston, Robert, Smoller, David, Coryell, Virginia, Khanna, Anupama, Erpelding, John, Gai, Xiaowu, Brendel, Volker, Raph-Schmidt, Christina, Shoop, E G, Vielweber, C J, Schmatz, Matt, Pape, Deana, Bowers, Yvette, Theising, Brenda, and Martin, John
Whole-genome sequencing is fundamental to understanding the genetic composition of an organism. Given the size and complexity of the soybean genome, an alternative approach is targeted random-gene sequencing, which provides an immediate and productive method of gene discovery. In this study, more than 120 000 soybean expressed sequence tags (ESTs) generated from more than 50 cDNA libraries were evaluated. These ESTs coalesced into 16 928 contigs and 17 336 singletons. On average, each contig was composed of 6 ESTs and spanned 788 bases. The average sequence length submitted to dbEST was 414 bases. Using only those libraries generating more than 800 ESTs each and only those contigs with 10 or more ESTs each, correlated patterns of gene expression among libraries and genes were discerned. Two-dimensional qualitative representations of contig and library similarities were generated based on expression profiles. Genes with similar expression patterns and, potentially, similar functions were identified. These studies provide a rich source of publicly available gene sequences as well as valuable insight into the structure, function, and evolution of a model crop legume genome.Key words: Glycine max, genome sequencing, functional genomics.Le séquençage de génomes complets est requis pour la compréhension de la composition génétique d'un organisme. Étant donné la taille et la complexité du génome du soja, le séquençage ciblé de gènes choisis au hasard constitue une approche alternative qui procure une méthode rapide et productive en vue d'identifier des gènes. Dans le cadre du présent travail, plus de 120 000 étiquettes de séquences exprimées (EST) du soja, provenant de 50 banques d'ADNc, ont été évaluées. Ces EST formaient 16 928 contigs et 17 336 étiquettes uniques. En moyenne, chaque contig comprenait 6 EST et totalisait 788 nucléotides. La taille moyenne des séquences soumises à dbEST était de 414 pb. En se limitant aux seules banques qui avaient contribué au moins 800 EST et aux seuls contigs comptant au moins 10 EST, des corrélations de l'expression génique ont pu être observées entre les banques et parmi des gènes. Des représentations qualitatives bidimensionnelles de la similarité des banques et des contigs ont été générées à partir des profils d'expression. Des gènes montrant des profils d'expression semblables, et potentiellement des fonctions similaires, ont été identifiés. Ces études contribuent un vaste éventail de séquences de gènes, dans le domaine publique, et apportent un éclairage nouveau sur la structure, la fonction et l'évolution du génome d'une légumineuse modèle.Mots clés : Glycine max, séquençage génomique, génomique fonctionnelle.[Traduit par la Rédaction] [ABSTRACT FROM AUTHOR]