Back to Search Start Over

Detecting Anomalies and Outliers in Data

Authors :
Rebernak, Vid
Čeperić, Vladimir
Publication Year :
2022
Publisher :
Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva., 2022.

Abstract

Definirani su pojmovi znanosti o podacima, inženjerstva značajki, rukovanja stršećim vrijednostima i anomalijama u ovome radu. Objašnjen je razlog potrebe za primjenom algoritama koji otkrivaju odstupanja, kao i njihov širok raspon primjena u svim područjima ljudskog djelovanja. Predstavljene su tehnologije i alati kojima se postigla analiza početnog skupa podataka te način na koji se provodi njihova upotreba. Odabran je skup podataka koji sadrži nalaze osoba oboljelih od raka dojke. Provedena je osnovna analiza korištenih podataka, vizualizacija svih značajki koje se pojavljuju u skupu te je opisana matrica korelacije radi odabira atributa koji daju optimalne rezultate i najpreciznije demonstriraju pojedine algoritme. Korišteni su gotovi algoritmi iz biblioteke Scikit-learn za oktrivanje anomalija. Iz univarijatne analize podataka, prikazani su modeli: distribucijska podjela, kutijasti dijagram, Z-vrijednosti i K-srednjih vrijednosti. Prilikom provedbe multivarijatne analize, objašnjeni su algoritmi: izolacijske šume, faktor lokalnog odstupanja, prostorno grupiranje na temelju gustoće i eliptična omotnica. Za svaki navedeni klasifikator analizirani su i međusobno uspoređeni dobiveni rezultati. The concepts of data science, feature engineering, handling outliers and anomalies are defined in this paper. The reason for using algorithms for detecting deviations is explained, as well as their wide range of applications in all areas of human activity. Technologies and tools used to achieve the analysis of the initial data set and the way in which their use is carried out are presented. Selected data set contains a certain amount of medical reports of individuals who are diagnosed with breast cancer. Basic analysis of the used data, visualization of all features that appear in the set and the correlation matrix are described in order to select the attributes that give optimal results and most accurately demonstrate individual algorithms. Existing algorithms from the Scikit-learn library were used to detect anomalies. From the univariate data analysis, the following models are presented: distribution plot, box plot, Z-values and K-means. While implementing the multivariate analysis, a few selected algorithms were explained: Isolation Forest, Local Outlier Factor, Density-based Spatial Clustering and Elliptic Envelope. For each listed classifier, obtained results were analyzed and compared with each other.

Details

Language :
Croatian
Database :
OpenAIRE
Accession number :
edsair.od......4131..96f74d949c1bd184774804a68e338191