Back to Search
Start Over
Detecting Anomalies and Outliers in Data
- Publication Year :
- 2022
- Publisher :
- Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva., 2022.
-
Abstract
- Definirani su pojmovi znanosti o podacima, inženjerstva značajki, rukovanja stršećim vrijednostima i anomalijama u ovome radu. Objašnjen je razlog potrebe za primjenom algoritama koji otkrivaju odstupanja, kao i njihov širok raspon primjena u svim područjima ljudskog djelovanja. Predstavljene su tehnologije i alati kojima se postigla analiza početnog skupa podataka te način na koji se provodi njihova upotreba. Odabran je skup podataka koji sadrži nalaze osoba oboljelih od raka dojke. Provedena je osnovna analiza korištenih podataka, vizualizacija svih značajki koje se pojavljuju u skupu te je opisana matrica korelacije radi odabira atributa koji daju optimalne rezultate i najpreciznije demonstriraju pojedine algoritme. Korišteni su gotovi algoritmi iz biblioteke Scikit-learn za oktrivanje anomalija. Iz univarijatne analize podataka, prikazani su modeli: distribucijska podjela, kutijasti dijagram, Z-vrijednosti i K-srednjih vrijednosti. Prilikom provedbe multivarijatne analize, objašnjeni su algoritmi: izolacijske šume, faktor lokalnog odstupanja, prostorno grupiranje na temelju gustoće i eliptična omotnica. Za svaki navedeni klasifikator analizirani su i međusobno uspoređeni dobiveni rezultati. The concepts of data science, feature engineering, handling outliers and anomalies are defined in this paper. The reason for using algorithms for detecting deviations is explained, as well as their wide range of applications in all areas of human activity. Technologies and tools used to achieve the analysis of the initial data set and the way in which their use is carried out are presented. Selected data set contains a certain amount of medical reports of individuals who are diagnosed with breast cancer. Basic analysis of the used data, visualization of all features that appear in the set and the correlation matrix are described in order to select the attributes that give optimal results and most accurately demonstrate individual algorithms. Existing algorithms from the Scikit-learn library were used to detect anomalies. From the univariate data analysis, the following models are presented: distribution plot, box plot, Z-values and K-means. While implementing the multivariate analysis, a few selected algorithms were explained: Isolation Forest, Local Outlier Factor, Density-based Spatial Clustering and Elliptic Envelope. For each listed classifier, obtained results were analyzed and compared with each other.
- Subjects :
- Isolation Forest
anomalije
TEHNIČKE ZNANOSTI. Računarstvo
prostorno grupiranje na temelju gustoće
distribution plot
znanost o podacima
Local Outlier Factor
Scikit-learn
breast cancer
stršeće vrijednosti
inženjerstvo značajki
TECHNICAL SCIENCES. Computing
vizualizacija
K-means
visualization
Elliptic Envelope
rak dojke
outliers
box plot
Z-value
Density-based Spatial Clustering
univariate analysis
distribucijska podjela
Z-vrijednost
feature engineering
multivariate analysis
korelacija
univarijatna analiza
eliptična omotnica
correlation
izolacijska šuma
anomalies
multivarijatna analiza
data science
kutijasti dijagram
K-sredina
faktor lokalnog odstupanja
Python
Subjects
Details
- Language :
- Croatian
- Database :
- OpenAIRE
- Accession number :
- edsair.od......4131..96f74d949c1bd184774804a68e338191