1. Bayesian Mixtures for Large Scale Inference
- Author
-
4408, DIPARTIMENTO DI STATISTICA E METODI QUANTITATIVI, AREA MIN. 13 - SCIENZE ECONOMICHE E STATISTICHE, 4408, DIPARTIMENTO DI STATISTICA E METODI QUANTITATIVI, and AREA MIN. 13 - SCIENZE ECONOMICHE E STATISTICHE
- Abstract
MIRA, ANTONIETTA, open, Bayesian mixture models are ubiquitous in statistics due to their simplicity and flexibility and can be easily employed in a wide variety of contexts. In this dissertation, we aim at providing a few contributions to current Bayesian data analysis methods, often motivated by research questions from biological applications. In particular, we focus on the development of novel Bayesian mixture models, typically in a nonparametric setting, to improve and extend active research areas that involve large-scale data: the modeling of nested data, multiple hypothesis testing, and dimensionality reduction.\\ Therefore, our goal is twofold: to develop robust statistical methods motivated by a solid theoretical background, and to propose efficient, scalable and tractable algorithms for their applications.\\ The thesis is organized as follows. In Chapter \ref{intro} we shortly review the methodological background and discuss the necessary concepts that belong to the different areas that we will contribute to with this dissertation. \\ In Chapter \ref{CAM} we propose a Common Atoms model (CAM) for nested datasets, which overcomes the limitations of the nested Dirichlet Process, as discussed in \citep{Camerlenghi2018}. We derive its theoretical properties and develop a slice sampler for nested data to obtain an efficient algorithm for posterior simulation. We then embed the model in a Rounded Mixture of Gaussian kernels framework to apply our method to an abundance table from a microbiome study.\\ In Chapter \ref{BNPT} we develop a BNP version of the two-group model \citep{Efron2004}, modeling both the null density $f_0$ and the alternative density $f_1$ with Pitman-Yor process mixture models. We propose to fix the two discount parameters $\sigma_0$ and $\sigma_1$ so that $\sigma_0>\sigma_1$, according to the rationale that the null PY should be closer to its base measure (appropriately chosen to be a standard Gaussian base measure), while the alternative PY should have fewer constr, I modelli mistura bayesiani sono onnipresenti in statistica per la loro semplicità e flessibilità e possono essere facilmente impiegati in un'ampia varietà di contesti. In questa tesi, miriamo a fornire alcuni contributi agli attuali metodi bayesiani di analisi dei dati, spesso motivati da domande di ricerca provenienti da applicazioni biologiche. In particolare, ci concentriamo sullo sviluppo di nuovi modelli mistura bayesiani, tipicamente in un ambiente non parametrico, per migliorare ed estendere aree di ricerca che coinvolgono dati caratterizzati da grande dimensioni: la modellazione di dati nested, test di ipotesi simultaneo e la riduzione della dimensionalità. \\ Pertanto, il nostro obiettivo è duplice: sviluppare metodi statistici robusti motivati da un solido background teorico e proporre algoritmi efficienti, scalabili e trattabili per le loro applicazioni. \\ La tesi è organizzata come segue. Nel capitolo 1 esamineremo brevemente il background metodologico e discuteremo i concetti necessari che appartengono alle diverse aree a cui contribuiremo con questa tesi. \\ Nel capitolo 2 proponiamo un modello di atomi comuni (CAM) per nested data, che supera le limitazioni del processo del nested Dirichlet Process, come discusso in \ citep {Camerlenghi2018}. Deriviamo le sue proprietà teoriche e sviluppiamo uno slice sampler per dati nested al fine di ottenere un algoritmo efficiente per la simulazione della posterior. Abbiamo poi incorporato il modello in un framework di Rounded mixture of Gaussian Kernels, così da applicare il nostro metodo a una abundance table derivante da uno studio di microbioma. \\ Nel capitolo \ref {BNPT} sviluppiamo una versione BNP del two-group model, modellando sia $ f_0 $ che $ f_1 $ con Pitman-Yor mixtures models. Proponiamo di fissare i due parametri $ \sigma_0 $ e $ \sigma_1 $ in modo che $ \sigma_0> \sigma_1 $, in base alla logica secondo cui il PY che modella la distribuzione nulla dovrebbe essere più vicino alla sua misura di b, No, open, Denti, F
- Published
- 2020