Bernard Dumas, Virginie Durand, Hiroshi Tsugawa, Ophélie Fraisier-Vannier, Guillaume Marti, Aurélien Amiel, Justine Chervin, Guillaume Cabanac, Olivier André, Sylvie Fournier, Virginie Puech, Omar Abdelaziz Benamar, Laboratoire de Recherche en Sciences Végétales (LRSV), Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), Pharmacochimie et Biologie pour le Développement (PHARMA-DEV), Institut de Recherche pour le Développement (IRD)-Institut de Chimie de Toulouse (ICT), Institut de Recherche pour le Développement (IRD)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Institut de Recherche pour le Développement (IRD)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT), Recherche d’Information et Synthèse d’Information (IRIT-IRIS), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Toulouse Mind & Brain Institut (TMBI), Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), MetaToul FluxoMet (TBI-MetaToul), MetaboHUB-MetaToul, MetaboHUB-Génopole Toulouse Midi-Pyrénées [Auzeville] (GENOTOUL), Université de Toulouse (UT)-Université de Toulouse (UT)-Ecole Nationale Vétérinaire de Toulouse (ENVT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-MetaboHUB-Génopole Toulouse Midi-Pyrénées [Auzeville] (GENOTOUL), Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Toulouse Biotechnology Institute (TBI), Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), MetaToul Agromix, Université de Toulouse (UT)-Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-MetaboHUB-MetaToul, Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Ecole Nationale Vétérinaire de Toulouse (ENVT), Université de Toulouse (UT)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Evolution des Interactions Plantes-Microorganismes, Université de Toulouse (UT)-Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS), De Sangosse, Recherche et développement, Groupe De Sangosse, Interactions Microbiennes dans la Rhizosphère et les Racines, RIKEN Center for Sustainable Resource Science [Yokohama] (RIKEN CSRS), RIKEN - Institute of Physical and Chemical Research [Japon] (RIKEN), RIKEN Center for Integrative Medical Sciences [Yokohama] (RIKEN IMS), SOLutionS pour des Traitements Intégrés dans une Conduite Environnementale PSPC SOLSTICE, ANR-11-INBS-0010,METABOHUB,Développement d'une infrastructure française distribuée pour la métabolomique dédiée à l'innovation(2011), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut de Chimie de Toulouse (ICT-FR 2599), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Institut de Chimie du CNRS (INC)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Institut de Chimie du CNRS (INC)-Institut de Recherche pour le Développement (IRD), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Métabolomique et Fluxomique (MetaToul) (TBI-MetaToul), MetaToul-MetaboHUB, Génopole Toulouse Midi-Pyrénées [Auzeville] (GENOTOUL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Ecole Nationale Vétérinaire de Toulouse (ENVT), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Génopole Toulouse Midi-Pyrénées [Auzeville] (GENOTOUL), Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Toulouse Biotechnology Institute (TBI), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Metatoul - Agromix, Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-MetaToul-MetaboHUB, Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Ecole Nationale Vétérinaire de Toulouse (ENVT), and Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
International audience; Untargeted metabolomics using liquid chromatog-raphy−mass spectrometry (LC−MS) is currently the gold-standard technique to determine the full chemical diversity in biological samples. However, this approach still has many limitations; notably, the difficulty of accurately estimating the number of unique metabolites profiled among the thousands of MS ion signals arising from chromatograms. Here, we describe a new workflow, MS-CleanR, based on the MS-DIAL/MS-FINDER suite, which tackles feature degeneracy and improves annotation rates. We show that implementation of MS-CleanR reduces the number of signals by nearly 80% while retaining 95% of unique metabolite features. Moreover, the annotation results from MS-FINDER can be ranked according to the database chosen by the user, which enhance identification accuracy. Application of MS-CleanR to the analysis of Arabidopsis thaliana grown in three different conditions fostered class separation resulting from multivariate data analysis and led to annotation of 75% of the final features. The full workflow was applied to metabolomic profiles from three strains of the leguminous plant Medicago truncatula that have different susceptibilities to the oomycete pathogen Aphanomyces euteiches. A group of glycosylated triterpenoids overrepresented in resistant lines were identified as candidate compounds conferring pathogen resistance. MS-CleanR is implemented through a Shiny interface for intuitive use by end-users (available at https://github.com/eMetaboHUB/MS-CleanR). U ntargeted or discovery-based metabolomics have become an essential tool in all biological sciences including clinical research, 1,2 plant science, 3 and natural product mining, 4 among many other applications. Living organisms are estimated to contain more than one million distinct compounds. 5 According to the MetaboLights database (DB), 80% of untargeted metabolomics workflows rely on liquid chromatography−mass spectrometry (LC−MS) (https:// www.ebi.ac.uk/metabolights/). Due to its broad coverage of metabolites, LC−MS based metabolomics has become the preferred tool to detect hundreds of compounds encountered in complex biological materials. Many software programs have been developed to turn features (m/z × retention time (RT) pairs) extracted from LC−MS raw data into chromatographic peak lists, including web-based interfaces such as XCMS, 6 Workflow4Metabolomics, 7 local GUI with MZmine, 8 and MS-DIAL. 9 Despite significant progress in feature extraction, it is challenging to accurately estimate the number of unique metabolites in a crude extract profiled by LC−MS. 10 On average, untargeted LC−MS yields hundred to thousands of signals, which may be attributed to either isotopes, contaminants, adducts, dimers, multimers, and heteromeric complexes or artifacts. The feature attribution processing which aims to decipher ion linkages is an essential step prior to metabolite annotation, which refers to tentative metabolite assignment to a given feature. Following these steps, the annotation rate can be calculated as the number of unique annotated metabolites over total features counts. Patti and colleagues 11 used the term "degenerate features" to describe feature relationships between multiple m/z signals arising from in-source phenomena and derived from the same metabolite. Their study demonstrated that feature inflation is highly underestimated in untargeted LC−MS based metabolomics. Additionally, this redundancy trend may have important consequences on metabolite annotation by increasing both false positive results and the number of "unknown" arising from wrongly attributed signals. This is especially true when