Back to Search Start Over

Machine Learning Anomaly Detection Applications to Compact Muon Solenoid Data Quality Monitoring

Authors :
Pol, Adrian Alan
STAR, ABES
European Organization for Nuclear Research (CERN)
TAckling the Underspecified (TAU)
Inria Saclay - Ile de France
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Recherche en Informatique (LRI)
CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)
Université Paris-Saclay
Cécile Germain
Source :
Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASS083⟩
Publication Year :
2020
Publisher :
HAL CCSD, 2020.

Abstract

The Data Quality Monitoring of High Energy Physics experiments is a crucial and demanding task to deliver high-quality data used for physics analysis. At the Compact Muon Solenoid experiment operating at the CERN Large Hadron Collider, the current quality assessment paradigm, is based on the scrutiny of a large number of statistical tests. However, the ever increasing detector complexity and the volume of monitoring data call for a growing paradigm shift. Here, Machine Learning techniques promise a breakthrough. This dissertation deals with the problem of automating Data Quality Monitoring scrutiny with Machine Learning Anomaly Detection methods. The high-dimensionality of the data precludes the usage of classic detection methods, pointing to novel ones, based on deep learning. Anomalies caused by detector malfunctioning are difficult to enumerate a priori and rare, limiting the amount of labeled data. This thesis explores the landscape of existing algorithms with particular attention to semi-supervised problems and demonstrates their validity and usefulness on real test cases using the experiment data. As part of this project, the monitoring infrastructure was further optimized and extended, delivering methods with higher sensitivity to various failure modes.<br />La surveillance de la qualité des données qui proviennent des expériences de physique des hautes énergies est une tâche exigeante mais cruciale pour assurer que les analyses physiques sont basées en données de la meilleure qualité possible. Lors de l’expérience Compact Muon Solenoid opérant au Grand collisionneur de hadrons du CERN, le paradigme actuel d’évaluation de la qualité des données est basé sur l’examen détaillé d’un grand nombre de tests statistiques. Cependant, la complexité toujours croissante des détecteurs et le volume des données de surveillance appellent un changement de paradigme. Ici, les techniques de Machine Learning promettent une percée. Cette thèse traite du problème de l’automatisation applique à la surveillance de la qualité des données avec les méthodes de détection des anomalies d’apprentissage automatique. La grande dimensionnalité des données empêche l’utilisation de méthodes de détection classiques, pointant vers de nouvelles, basées sur l’apprentissage en profondeur. Les anomalies causées par un dysfonctionnement du détecteur sont difficiles à énumérer a priori et rares, ce qui limite la quantité de données étiquetées. Ainsi, cette thèse explore le paysage des algorithmes existants avec une attention particulière aux problèmes semi-supervisés et démontre leur validité et leur utilité sur des cas de test réels en utilisant les données de l’expérience. Dans le cadre de ce projet, l’infrastructure de surveillance a été encore optimisée et étendue, offrant des méthodes plus sensibles aux différents modes de défaillance.

Details

Language :
English
Database :
OpenAIRE
Journal :
Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASS083⟩
Accession number :
edsair.dedup.wf.001..6e1213a9c6f36317b11f14a677dc25b8