1. Desenvolvimento de sistemas escaláveis para pesquisa genômica em ambientes de computação de alto desempenho
- Author
-
Souza, Wélliton de, 1990, Lopes-Cendes, Íscia Teresinha, 1964, Vieira, Andre Schwambach, Veiga, Diego Fernando Troggian, Melo, Mônica Barbosa de, Silva Junior, Wilson Araújo da, Universidade Estadual de Campinas. Faculdade de Ciências Médicas, Programa de Pós-Graduação em Fisiopatologia Médica, and UNIVERSIDADE ESTADUAL DE CAMPINAS
- Subjects
Computational biology ,Reproducibility of results ,Reprodutibilidade dos testes ,Sequenciamento de nucleotídeos em larga escala ,Computação de alto desempenho ,High-throughput nucleotide sequencing ,Biologia computacional ,Computing methodologies - Abstract
Orientador: Íscia Teresinha Lopes Cendes Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas Resumo: Tecnologias de sequenciamento de alto rendimento e a demanda crescente por análise de conjuntos de dados genômicos em larga escala criaram desafios computacionais e de reprodutibilidade. Grandes volumes de dados exigem sistemas otimizados para execução em ambientes de alto desempenho e eficientes, ao mesmo tempo em que os projetos de pesquisa expandem e novos recursos computacionais são adquiridos. Nesse contexto os protocolos de processamento tornaram-se mais complexos conforme técnicas de sequenciamento foram desenvolvidas para outras áreas além da genômica, como transcriptômica e epigenômica. Esses protocolos são compostos de dezenas de tarefas que devem ser executadas em um fluxo de trabalho que pode ter ramificações e uso de técnicas de paralelismo dificultando a publicação de pesquisas completamente reprodutíveis, requisito cada vez mais presente na literatura. Durante a execução deste trabalho, protocolos de processamento reprodutíveis foram descritos em Workflow Description Language e executados utilizando o sistema gerenciador de protocolos Cromwell. O sistema RNNR foi desenvolvido para gerenciamento de recursos computacionais, distribuição e execução de tarefas de processamento em computadores em rede. Outras ferramentas como Espresso-Caller e MethSeq foram desenvolvidas para automatizar a execução de protocolos complexos. As ferramentas computacionais desenvolvidas, quando combinadas a outros sistemas e padrões desenvolvidos pela comunidade, criaram um ecossistema para análises reprodutíveis de dados de sequenciamento de larga escala e suportado em diferentes ambientes computacionais. RNNR diminuiu o tempo total de análises de grandes volumes de dados de sequenciamento. As ferramentas de automação simplificaram a execução de análises com centenas de amostras. O ecossistema foi utilizado para analisar milhares de amostras de sequenciamento e possibilitou a execução de estudos em genômica, transcriptômica e epigenômica Abstract: High-throughput sequencing technologies and the growing demand for large-scale analysis of genomic data sets have created computational and reproducibility challenges. Large volumes of data require systems optimized for execution in high performance and efficient environments, while research projects expand, and new computational resources are acquired. In this context, processing protocols have become more complex as sequencing techniques have been developed for areas other than genomics, such as transcriptomics and epigenomics. These protocols are composed of dozens of tasks that must be performed in a workflow that may have ramifications and use of parallel techniques, making it difficult to publish completely reproducible research, a requirement that is increasingly present in the literature. Throughout the execution of this work, reproducible pipelines were described in Workflow Description Language and executed using the Cromwell management system. The RNNR system was developed to manage computational resources and distribute and execute processing tasks across networked computers. Other tools such as Espresso-Caller and MethSeq were developed to automate the execution of complex workflows. The computational tools built, when combined with other systems and standards developed by the community, created an ecosystem for analyzing large-scale sequencing data in reproducible and supported in different computing environments. RNNR decreased the total analysis time of large volumes of sequencing data. Automation tools have simplified the execution of analyzes with hundreds of samples. The ecosystem was used to analyze thousands of sequencing samples and empowered studies in genomics, transcriptomics and epigenomics Doutorado Fisiopatologia Médica Doutor em Ciências FAPESP 2016/04204-8
- Published
- 2021
- Full Text
- View/download PDF