Back to Search Start Over

Transformation des données et comparaison de modèles pour la classification des données RNA-seq

Authors :
Gallopin, Mélina
Rau, Andrea
Celeux, Gilles
Jaffrézic, Florence
Laboratoire de Mathématiques d'Orsay (LM-Orsay)
Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)
Model selection in statistical learning (SELECT)
Inria Saclay - Ile de France
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO)
Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay
Génétique Animale et Biologie Intégrative (GABI)
Institut National de la Recherche Agronomique (INRA)-AgroParisTech
Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)
Société Française de Statistique (SFdS). FRA.
Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)
Laboratoire de Mathématiques d'Orsay (LMO)
Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Inria Saclay - Ile de France
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
AgroParisTech-Institut National de la Recherche Agronomique (INRA)
Source :
47èmes Journées de Statistique de la SFdS, 47èmes Journées de Statistique de la SFdS, Jun 2015, Lille, France, 47èmes Journées de Statistique de la SFdS, Société Française de Statistique (SFdS). FRA., Jun 2015, Lille, France
Publication Year :
2015
Publisher :
HAL CCSD, 2015.

Abstract

International audience; Les données d'expression issues du séquençage haut-débit (RNA-seq) sont des données de comptage très hétérogènes. Il est naturel de les représenter par des modèles basés sur des lois discrètes comme la loi de Poisson ou la loi binomiale négative. Mais des transformations simples des données peuvent permettre de se ramener à des modèles plus répandus fondés sur des lois gaussiennes. Nous montrons comment comparer objectivement les vraisemblances de ces modèles travaillant sur des données différentes. Nous nous focalisons pour mener ces comparaisons sur des problèmes de classification où les mélanges de Poisson et gaussiens peuvent etre mis en compétition.; High-throughput transcriptome sequencing data (RNA-seq) are made up of highly heterogeneous counts. Although they are often modeled with discrete distributions, including the Poisson and negative binomial distributions, Gaussian models on transformed data could alternatively be considered. We show how the likelihood of these different models can be objectively compared. We focus attention on the problem of clustering gene profiles, where Poisson mixtures on count data are compared with Gaussian mixtures on transformed data.

Details

Language :
French
Database :
OpenAIRE
Journal :
47èmes Journées de Statistique de la SFdS, 47èmes Journées de Statistique de la SFdS, Jun 2015, Lille, France, 47èmes Journées de Statistique de la SFdS, Société Française de Statistique (SFdS). FRA., Jun 2015, Lille, France
Accession number :
edsair.dedup.wf.001..a0288fa15ea45de86970ea02f6f256a6