Back to Search Start Over

Estimating minimum effect with outlier selection

Authors :
Alexandra Carpentier
Sylvain Delattre
Nicolas Verzelen
Etienne Roquain
Verzelen, Nicolas
Otto-von-Guericke-Universität Magdeburg
Sorbonne Université (SU)
Mathématiques, Informatique et STatistique pour l'Environnement et l'Agronomie (MISTEA)
Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut National de la Recherche Agronomique (INRA)
Otto-von-Guericke University [Magdeburg] (OVGU)
Laboratoire de Probabilités et Modèles Aléatoires (LPMA)
Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7)-Université Pierre et Marie Curie - Paris 6 (UPMC)
Laboratoire de Probabilités, Statistiques et Modélisations (LPSM (UMR_8001))
Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP)
Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
ANR-16-CE40-0019,SansSouci,Approches post hoc pour les tests multiples à grande échelle(2016)
ANR-17-CE40-0001,BASICS,Bayésien non-paramétrique, quantification de l'incertitude et structures aléatoires(2017)
Source :
Annals of Statistics, Annals of Statistics, Institute of Mathematical Statistics, 2021, 49 (1), pp.272-294. ⟨10.1214/20-AOS1956⟩, Ann. Statist. 49, no. 1 (2021), 272-294
Publication Year :
2018
Publisher :
arXiv, 2018.

Abstract

We introduce one-sided versions of Huber's contamination model, in which corrupted samples tend to take larger values than uncorrupted ones. Two intertwined problems are addressed: estimation of the mean of uncorrupted samples (minimum effect) and selection of corrupted samples (outliers). Regarding the minimum effect estimation, we derive the minimax risks and introduce adaptive estimators to the unknown number of contaminations. Interestingly, the optimal convergence rate highly differs from that in classical Huber's contamination model. Also, our analysis uncovers the effect of particular structural assumptions on the distribution of the contaminated samples. As for the problem of selecting the outliers, we formulate the problem in a multiple testing framework for which the location/scaling of the null hypotheses are unknown. We rigorously prove how estimating the null hypothesis is possible while maintaining a theoretical guarantee on the amount of the falsely selected outliers, both through false discovery rate (FDR) or post hoc bounds. As a by-product, we address a long-standing open issue on FDR control under equi-correlation, which reinforces the interest of removing dependency when making multiple testing.<br />Comment: 70 pages; 7 figures

Details

ISSN :
00905364 and 21688966
Database :
OpenAIRE
Journal :
Annals of Statistics, Annals of Statistics, Institute of Mathematical Statistics, 2021, 49 (1), pp.272-294. ⟨10.1214/20-AOS1956⟩, Ann. Statist. 49, no. 1 (2021), 272-294
Accession number :
edsair.doi.dedup.....b0d711d355a0ba32f7716aae51a20466
Full Text :
https://doi.org/10.48550/arxiv.1809.08330