1. Métodos estatísticos para modelagem de dados de scRNA-seq
- Author
-
Menezes, André Felipe Berdusco, 1996, Carvalho, Benilton de Sá, 1979, Kiihl, Samara Flamini, Veiga, Diogo Fernando, Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica, Programa de Pós-Graduação em Estatística, and UNIVERSIDADE ESTADUAL DE CAMPINAS
- Subjects
Differential expression ,Cluster analysis ,Dados omics ,Omics data ,Análise por agrupamento ,scRNA-seq ,Bioestatística ,Biostatistics ,Expressão diferencial - Abstract
Orientador: Benilton de Sá Carvalho Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica Resumo: A tecnologia de sequenciamento massivo de DNA e RNA permitiu desenvolvimentos significativos na área de biomédicas, culminando, neste momento, na implementação da medicina de precisão, em que informações moleculares do paciente são levadas em consideração para a tomada de decisão no curso de tratamento. Em geral, o sequenciamento de DNA ou RNA é realizado a partir de uma amostra do tipo bulk, em que o material molecular de várias células é combinado para a realização das análises de interesse. Com o avanço tecnológico mais recente, tornou-se possível o sequenciamento do material genético no nível das células, permitindo a análise de fenótipos de interesse, como doenças diversas, numa resolução ainda mais granular que aquela oferecida por amostras do tipo bulk. Especificamente, a tecnologia de single-cell RNA sequencing (scRNA-seq) permite criar perfis de expressão na resolução da célula. A vasta quantidade de dados produzida por experimentos de scRNA-seq e as hipóteses de pesquisa que os motivam exigem um tratamento computacional e estatístico eficiente. Nesse sentido, o objetivo dessa pesquisa foi estudar as técnicas utilizadas para análise dos dados em experimentos scRNA-seq, que incluem (i) métodos para pré-processamento, (ii) processamento da matriz de contagem e (iii) métodos estatísticos para análise dos dados. Além disso, motivado por um conjunto de dados de células do tecido BALF de pacientes com COVID-19, um estudo de simulação foi conduzido considerando as características particulares dos dados para comparar diferentes abordagens para análise de expressão diferencial que incorporam a origem da célula. Por fim, o fluxo usual de análise discutido no trabalho foi empregado para analisar o conjunto de dados de células BALF, caracterizando grupos de células e comparando os níveis de expressão gênica dos indivíduos sob diferentes condições experimentais Abstract: High-throughput sequencing technology allowed significant developments in the biomedical area, culminating, at this moment, in the implementation of precision medicine, where the patient's molecular information is taken into consideration for decision making in the treatment course. In general, the DNA or RNA sequencing is performed from bulk sample, where the molecular material of several cells is combined to perform the analysis of interested. Especially, the technology of single cell RNA sequencing (scRNA-seq) enables high-throughput transcriptome profiling at the resolution of single cells. The vast amount of data produced by scRNA-seq experiments and the research hypotheses that motivate them require efficient computational and statistical treatment. Hence, the goal of this research was to study the techniques used for data analysis in scRNA-seq, which include (i) methods for pre-processing raw data, (ii) data processing of counting matrix and (iii) statistical methods for data analysis. In addition, motivated by a data set of cells from bronchoalveolar lavage fluid (BALF) tissue from patients with COVID-19, a simulation study was conducted, considering the particularities of the data, to compare different approaches for differential expression analysis that incorporate the cell's origin. Finally, the usual workflow discussed in the research was adopted to analyze the BALF cells data set by characterizing groups of cells and comparing the expression genes levels of individuals under different experimental conditions Mestrado Estatística Mestre em Estatística CNPQ 132278/2019-7
- Published
- 2021