Back to Search Start Over

Scientific workflows for computational reproducibility in the life sciences: Status, challenges and opportunities

Authors :
Olivier Collin
Sarah Cohen-Boulakia
Konrad Hinsen
Alban Gaignard
Khalid Belhajjame
Pierre Larmande
Fabien Mareuil
Christine Froidevaux
Frédéric Lemoine
Christophe Blanchet
Jérôme Chopard
Christophe Pradal
Hervé Ménager
Yvan Le Bras
Scientific Data Management (ZENITH)
Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM)
Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM)
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
Laboratoire de Recherche en Informatique (LRI)
Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)
Institut de Biologie Computationnelle (IBC)
Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE)
Université Paris Dauphine-PSL
Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)
Plateforme bioinformatique GenOuest [Rennes]
Université de Rennes (UR)-Plateforme Génomique Santé Biogenouest®-Inria Rennes – Bretagne Atlantique
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)
Mathématiques, Informatique et STatistique pour l'Environnement et l'Agronomie (MISTEA)
Institut National de la Recherche Agronomique (INRA)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Centre hospitalier universitaire de Nantes (CHU Nantes)
Synchrotron SOLEIL (SSOLEIL)
Centre National de la Recherche Scientifique (CNRS)
Centre de biophysique moléculaire (CBM)
Université d'Orléans (UO)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)
Diversité, adaptation, développement des plantes (UMR DIADE)
Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud])
Bioinformatique évolutive - Evolutionary Bioinformatics
Institut Pasteur [Paris] (IP)-Centre National de la Recherche Scientifique (CNRS)
Centre d'Informatique pour la Biologie
Institut Pasteur [Paris] (IP)
Centre de Bioinformatique, Biostatistique et Biologie Intégrative (C3BI)
Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP)
Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Modeling plant morphogenesis at different scales, from genes to phenotype (VIRTUAL PLANTS)
Inria Sophia Antipolis - Méditerranée (CRISAM)
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de la Recherche Agronomique (INRA)-Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP)
Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut Français de Bioinformatique - UMS CNRS 3601 (IFB-CORE)
Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)
The authors acknowledge the support of GDR CNRS MaDICS, pro-gramme CPER Region Bretagne 'CeSGO', and programme Region Paysde la Loire 'Connect Talent' (SyMeTRIC). We acknowledge funding by thecall Infrastructures in Biology and Health' in the framework of the FrenchInvestments for the Future' (ANR-11-INBS-0012 and ANR-11-INBS-0013).This work was conducted in part at the IBC (Institute of Computational Bi-ology) in Montpellier, France.
ANR-11-INBS-0013,IFB (ex Renabi-IFB),Institut français de bioinformatique(2011)
ANR-11-INBS-0011,NeurATRIS,Infrastructure de Recherche Translationnelle pour les Biothérapies en Neurosciences(2011)
Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM)
CentraleSupélec-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)
Université de Rennes 1 (UR1)
Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Plateforme Génomique Santé Biogenouest®-Inria Rennes – Bretagne Atlantique
Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes 1 (UR1)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique)
Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut National de la Recherche Agronomique (INRA)
Université d'Orléans (UO)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Chimie du CNRS (INC)
Institut Pasteur [Paris]-Centre National de la Recherche Scientifique (CNRS)
Institut Pasteur [Paris]
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1)
Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
Institut de Recherche pour le Développement (IRD [France-Sud])-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)
Université Paris Dauphine-PSL-Centre National de la Recherche Scientifique (CNRS)
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Inria Sophia Antipolis - Méditerranée (CRISAM)
Université d'Orléans (UO)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)
Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)
Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de la Recherche Agronomique (INRA)
ANR-11-INBS-0013/11-INBS-0013,ReNaBi-IFB,Institut français de bioinformatique(2011)
ANR-11-INBS-0011/11-INBS-0011,NeurATRIS,Infrastructure de Recherche Translationnelle pour les Biothérapies en Neurosciences(2011)
Cohen-Boulakia, Sarah
Infrastructures - Institut français de bioinformatique - - IFB (ex Renabi-IFB)2011 - ANR-11-INBS-0013 - INBS - VALID
Infrastructures - Infrastructure de Recherche Translationnelle pour les Biothérapies en Neurosciences - - NeurATRIS2011 - ANR-11-INBS-0011 - INBS - VALID
Source :
Future Generation Computer Systems, Future Generation Computer Systems, 2017, 75, pp.284-298. ⟨10.1016/j.future.2017.01.012⟩, Future Generation Computer Systems, Elsevier, 2017, 75, pp.284-298. ⟨10.1016/j.future.2017.01.012⟩
Publication Year :
2017
Publisher :
Elsevier BV, 2017.

Abstract

International audience; With the development of new experimental technologies, biologists are faced with an avalanche of data to be computationally analyzed for scientific advancements and discoveries to emerge. Faced with the complexity of analysis pipelines, the large number of computational tools, and the enormous amount of data to manage, there is compelling evidence that many if not most scientific discoveries will not stand the test of time: increasing the reproducibility of computed results is of paramount importance. The objective we set out in this paper is to place scientific workflows in the context of reproducibility. To do so, we define several kinds of repro-ducibility that can be reached when scientific workflows are used to perform experiments. We characterize and define the criteria that need to be catered for by reproducibility-friendly scientific workflow systems, and use such criteria to place several representative and widely used workflow systems and companion tools within such a framework. We also discuss the remaining challenges posed by reproducible scientific workflows in the life sciences. Our study was guided by three use cases from the life science domain involving in silico experiments.

Details

ISSN :
0167739X
Volume :
75
Database :
OpenAIRE
Journal :
Future Generation Computer Systems
Accession number :
edsair.doi.dedup.....20e9c8f2e095460bc4d4e143356009d7