Back to Search Start Over

A COMPARISON OF ADVANCED METHODS USED FOR MISSING DATA IMPUTATION UNDER DIFFERENT CONDITIONS

Authors :
Çüm, Sait
Demir, Elif Kübra
Gelbal, Selahattin
Kışla, Tarık
Ege Üniversitesi
Publication Year :
2018

Abstract

Bu araştırmada, farklı oranlarda (%15 ve %25) ve yapılarda (TROK ve ROK) oluşturulan kayıp veriler yerine farklı yöntemlerle yaklaşık değer atanması sonucu elde edilen veri setlerinin tam veri setleriyle karşılaştırılarak incelenmesi amaçlanmıştır. Bu araştırma, PISA’ya (2012) Türkiye’den katılan 15 yaş grubundaki 4848 öğrenci arasından matematik özyeterliği anketine katılan ve eksiksiz bir şekilde yanıtlayan 3129 öğrencinin puanlarından oluşan veri seti üzerinde yürütülmüştür. Söz konusu veri seti içerisinden farklı yapılar oluşturulacak şekilde farklı oranlarda veri silinerek eksik veri setleri oluşturulmuştur. Bu eksik veri setleri BM, BVA, ESE, MUA, MZMC ve RA olmak üzere altı farklı gelişmiş değer atama yöntemiyle tamamlanmıştır. Söz konusu yöntemlerle yapılan yaklaşık değer atamaları sonucu elde edilen ölçek puanları ile tam veri ölçek puanları arasındaki korelasyon değerlerinin yüksek olduğu görülmüştür. Benzer şekilde farklı yöntemlerle tamamlanmış veri setlerinden elde edilen ölçek puanları arasındaki korelasyon değerleri de yüksek bulunmuştur. Tam veri seti ile tamamlanmış veri setlerinden hesaplanan ölçek puanları arası farkların mutlak değer toplamları ve ortalamaları göz önünde bulundurulduğunda belirlenen koşullar altında en iyi çalışan yaklaşık değer atama yöntemlerinin MZMC ve BM olduğu sonucuna ulaşılmıştır.<br />In this study, it is aimed to comparatively research of data sets obtained imputation for missing values that is formed by different ratios (%15 and %25) and in different structures (MCAR and MAR) with different methods. This study has been conducted on data set formed by points of 3129 students who participated in mathematics selfefficacy survey and answered it completely among 4848 students -age group of 15- who participated in PISA 2012 from Turkey. Missing data sets have been constituted by deleting data in different ratios to be constitute different structures in the data set. These data sets have been completed by six different nearby value imputation including EM, BIM, PSM, MCMC, MDIM, and RIM. Obtained data sets have been compared with full data sets by scale points of students. In the scope of the research, correlation between obtained scale points and scale points of real data has been seen quite high. Similarly, when scale points is considered, correlation of missing data imputation methods with each other have also been found quite high. Considering the difference between the totals and avarages of student scores calculated from the full data set and imputed data sets EM and MCMC is founded that the best missing data imputation methods under all conditions.

Details

Language :
Turkish
Database :
OpenAIRE
Accession number :
edsair.od......9436..fb8b642f116074b5ae0804b1e7067af0