1. A novel substitution matrix fitted to the compositional bias in Mollicutes improves the prediction of homologous relationships
- Author
-
François Thiaucourt, Aurélien Barré, Florence Tardy, Pascal Sirand-Pugnet, Claire Lemaitre, Patricia Thebault, Christine Citti, Centre de Bioinformatique de Bordeaux (CBIB), CGFB, Biological systems and models, bioinformatics and sequences (SYMBIOSE), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria), Interactions hôtes-agents pathogènes [Toulouse] (IHAP), Institut National de la Recherche Agronomique (INRA)-Ecole Nationale Vétérinaire de Toulouse (ENVT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées, Institut National de la Recherche Agronomique (INRA), Laboratoire de Lyon, Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail (ANSES), Contrôle des maladies animales exotiques et émergentes (UMR CMAEE), Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), Biologie du fruit et pathologie (BFP), Université Sciences et Technologies - Bordeaux 1-Institut National de la Recherche Agronomique (INRA)-Université Bordeaux Segalen - Bordeaux 2, Laboratoire Bordelais de Recherche en Informatique (LaBRI), Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Université Sciences et Technologies - Bordeaux 1-Université Bordeaux Segalen - Bordeaux 2, Laboratoire de Lyon [ANSES], Université Bordeaux Segalen - Bordeaux 2-Institut National de la Recherche Agronomique (INRA)-Université Sciences et Technologies - Bordeaux 1, Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB), This work was funded by the French project ANR EVOLMYCO (ANR-07-GMGE-001). We thank two anonymous reviewers for helpful remarks on the manuscript., Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria Rennes – Bretagne Atlantique, Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT), Université de Lyon-Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail (ANSES), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA), Université Bordeaux Segalen - Bordeaux 2-Institut National de la Recherche Agronomique (INRA)-Université Sciences et Technologies - Bordeaux 1 (UB), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS), and Lemaître, Claire
- Subjects
biochemistry and molecular biology ,substitution matrix ,Protéine microbienne ,Biochemistry ,Genome ,Matrix (mathematics) ,Structural Biology ,lcsh:QH301-705.5 ,Genetics ,0303 health sciences ,U10 - Informatique, mathématiques et statistiques ,Applied Mathematics ,030302 biochemistry & molecular biology ,000 - Autres thèmes ,BLOSUM ,Genomics ,[SDV.BIBS]Life Sciences [q-bio]/Quantitative Methods [q-bio.QM] ,Computer Science Applications ,acide aminé ,Bio-informatique ,lcsh:R858-859.7 ,L72 - Organismes nuisibles des animaux ,Modèle mathématique ,Research Article ,Bioinformatics ,Computational biology ,Biology ,lcsh:Computer applications to medicine. Medical informatics ,Substitution matrix ,03 medical and health sciences ,Bacterial Proteins ,[SDV.BBM.GTP]Life Sciences [q-bio]/Biochemistry, Molecular Biology/Genomics [q-bio.GN] ,matrice de substitution ,Molecular Biology ,030304 developmental biology ,Comparative genomics ,Bacteria ,Sequence Homology, Amino Acid ,Substitution (logic) ,mathematical and computational biology ,Protein superfamily ,mollicutes ,orthologous predictions ,biotechnology and applied microbiology ,lcsh:Biology (General) ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] ,Software ,Tenericutes - Abstract
Background Substitution matrices are key parameters for the alignment of two protein sequences, and consequently for most comparative genomics studies. The composition of biological sequences can vary importantly between species and groups of species, and classical matrices such as those in the BLOSUM series fail to accurately estimate alignment scores and statistical significance with sequences sharing marked compositional biases. Results We present a general and simple methodology to build matrices that are especially fitted to the compositional bias of proteins. Our approach is inspired from the one used to build the BLOSUM matrices and is based on learning substitution and amino acid frequencies on real sequences with the corresponding compositional bias. We applied it to the large scale comparison of Mollicute AT-rich genomes. The new matrix, MOLLI60, was used to predict pairwise orthology relationships, as well as homolog families among 24 Mollicute genomes. We show that this new matrix enables to better discriminate between true and false orthologs and improves the clustering of homologous proteins, with respect to the use of the classical matrix BLOSUM62. Conclusions We show in this paper that well-fitted matrices can improve the predictions of orthologous and homologous relationships among proteins with a similar compositional bias. With the ever-increasing number of sequenced genomes, our approach could prove valuable in numerous comparative studies focusing on atypical genomes.
- Published
- 2011
- Full Text
- View/download PDF