Back to Search Start Over

Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Authors :
Jean-Baka Domelevo Entfellner
Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM)
Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
Université Montpellier II - Sciences et Techniques du Languedoc
Olivier Gascuel
Source :
Bio-informatique [q-bio.QM]. Université Montpellier II-Sciences et Techniques du Languedoc, 2011. Français, Jean-Baka Domelevo Entfellner
Publication Year :
2011
Publisher :
HAL CCSD, 2011.

Abstract

Statistical modelling of homologous sequences through profile HMM disregards the phylogenetic links between those. Here we present models harnessing an efficient combination of horizontal and vertical features, simultaneously figuring sequences as chains of aminoacids and products of an evolutionary process. Such models belong to the phylo-HMM family introduced in the '90s (e.g. Mitchison & Durbin). Focusing on the detection of remote homologues in databases, we develop a framework for an exhaustive derivation of phylo-HMM parameters basing on the phylogeny. The models we build are ancestral re-construction HMM, output by a process of phylogenetic inference of conserved positions, Match and Insert emission probabilities, and transition probabilities. Finally, we propose new models of evolution for transitions between states of the HMM and for insert lengths. The training framework we describe has been implemented and tried on testbenches of homologous sequences. It brings improved likelihoods and a better discriminative power on detecting remote homologues in large databases of proteins sequences; La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison& Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie: les modèles que nous proposons sont des HMM de reconstruction ancestrale,issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues,mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques

Details

Language :
French
Database :
OpenAIRE
Journal :
Bio-informatique [q-bio.QM]. Université Montpellier II-Sciences et Techniques du Languedoc, 2011. Français, Jean-Baka Domelevo Entfellner
Accession number :
edsair.dedup.wf.001..08336836aa29b0e347c1d6827818423e