Akan verilerde aykırı değer tespiti yaklaşımları
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Aykırı değer tespiti, veri setindeki anormal davranışları tespit etmek, gürültüyü ortadan kaldırmak ya da anlamlı bilgileri keşfetmek için kullanılan önemli bir veri madenciliği tekniğidir. Saldırı, kredi kartı dolandırıcılığı ve endüstriyel hasar tespiti gibi farklı uygulama alanlarında kullanılan aykırı değer tespitinin birçok avantajı bulunmaktadır. Tez çalışmasında, aykırı değer tespitindeki en önemli sorunlardan biri olan akan verilerde aykırı değer tespiti ele alınmıştır. Bu çalışmada, akan verilerde aykırı değer tespiti için geliştirilmiş olan uzaklık tabanlı MCOD yaklaşımı ile toplu verilerde çalışan yoğunluk tabanlı LOF yaklaşımı temel alınarak MCODLOF yaklaşımı ve sadece toplu verilerde çalışabilen LOF yaklaşımının akan verilere uyarlanması ile LOFStream yaklaşımı geliştirilmiştir. MCOD yaklaşımı ile geliştirilen MCODLOF ve LOFStream yaklaşımları TPR, FPR, PPV, ACC ve F1 ölçütü kullanılarak karşılaştırılmıştır. Dört farklı gerçek veri seti ve sentetik veri seti kullanılarak elde edilen sonuçlar hassaslık, kesinlik, yanlış alarm, doğruluk ve çalışma zamanı açısından değerlendirilmiştir. Deneylere göre önerilen MCODLOF ve LOFStream yaklaşımlarının daha iyi sonuç verdiği gözlemlenmiştir.
Outlier detection is an important data mining technique used to detect abnormal behavior, eliminate noise, or discover meaningful information in the data set. There are many advantages of outlier detection used in different areas of application, such as intrusion, credit card fraud and industrial damage detection. In this thesis, outlier detection in streaming data, which is one of the most important problems in outlier detection, is studied. In this study, the MCODLOF approach, which is based on distance-based MCOD and density-based LOF for batch data, and LOFStream approach, which is an adaptation of LOF to streaming data were developed. MCOD approach and the developed MCODLOF and LOFStream approaches were compared by using TPR, FPR, PPV, ACC and F1 metrics. The results obtained using four different real data sets and synthetic data sets were evaluated in terms of sensitivity, precision, false alarm, accuracy and run time. According to the test results, it is observed that the proposed MCODLOF and LOFStream approaches give better results.