Eksik veri oranı ne kadar olursa analiz yapılamaz?

Kesin bir üst sınır yok. %5'in altında MCAR eksiklik genellikle sorun oluşturmuyor. %5-20 arasında çoklu imputasyon öneriliyor. %20-50 arasında dikkatli imputasyon ve duyarlılık analizi zorunlu. %50'nin üzerinde o değişkeni analiz dışı bırakmayı veya çok güçlü yardımcı değişkenlerle imputasyonu değerlendirmek gerekiyor.

SPSS'te çoklu imputasyon nasıl yapılır?

Analyze > Multiple Imputation > Impute Missing Data Values yolu ile. İmputasyon sayısını en az 20 olarak belirlemek, model sekmesinde değişken türlerine uygun modelleri seçmek (sürekli için linear regression, ikili için logistic regression), constraints sekmesinde değer aralıklarını tanımlamak gerekiyor. SPSS havuzlanmış sonuçları otomatik hesaplıyor ama R'deki mice'a kıyasla daha sınırlı.

MICE ile MI arasındaki fark nedir?

MI genel çerçeve, MICE ise MI'nin en yaygın algoritması. MI'nin farklı uygulamaları var: joint modeling tüm değişkenleri tek bir çok değişkenli dağılımla modelliyor; MICE her değişken için ayrı bir koşullu dağılım tanımlıyor. MICE, farklı değişken türleri için farklı modeller kullanabilmesi nedeniyle pratikte daha esnek.

İmputasyon sonrası mantıksız değerler çıkabiliyor mu?

Evet, kısıtlama uygulanmazsa negatif yaş veya aralık dışı kan basıncı değerleri üretilebiliyor. İmputasyon modelinde minimum/maksimum değer tanımlamak gerekiyor. R'de mice paketinde post-processing fonksiyonları, SPSS'te Constraints sekmesi bu amaçla var. PMM yöntemi gözlenen değerler arasından atama yaparak bu sorunu doğal olarak azaltıyor.

Duyarlılık analizi yapmadan makale gönderilebilir mi?

Teknik olarak evet ama hakem eleştirisi alma riski yüksek. %10'un üzerinde eksiklik olan klinik çalışmalarda duyarlılık analizi neredeyse zorunlu kabul ediliyor. CONSORT 2010, ICH E9(R1) ve EMA kılavuzları bunu açıkça talep ediyor. Complete case ile MI sonuçlarını karşılaştırarak tutarlılığı göstermek bile hiç yapmamaktan çok daha güçlü.

Birden fazla değişkende eksiklik varsa her birini ayrı ayrı mı doldurmak gerekiyor?

Hayır, birlikte doldurmak gerekiyor. MICE algoritması tam olarak bunu yapıyor: tüm eksik değişkenleri birbirine koşullu olarak iteratif biçimde dolduruyor. Ayrı ayrı doldurmak değişkenler arası ilişki yapısını bozuyor ve yanlı sonuçlar üretiyor.

Retrospektif çalışmada eksik veri çok fazlaysa ne yapmalı?

Önce eksikliğin nedenini klinik olarak değerlendirmekte fayda var: dosyalar sistematik mi rastgele mi eksik? Merkezler arası fark var mı? Sonra her değişken için eksiklik oranını hesaplamak, %50'nin üzerinde eksik değişkenleri analiz dışı bırakmayı değerlendirmek, kalan değişkenler için çoklu imputasyon uygulamak ve complete case ile karşılaştırmalı sonuçlar sunmak gerekiyor.

Eksik Veri Analizi: Hangi Yöntemi Ne Zaman Tercih Etmeli?

Yüz yirmi hastanın verisi toplanıp SPSS'te analiz çalıştırıldığında, sonuç penceresinde beklenenden düşük bir örneklem — örneğin "N=87" — görmek sık rastlanan bir durum. Aradaki 33 hasta kaybolmuş değil: bazılarının laboratuvar sonucu eksik, birkaçı anketi yarım bırakmış, birinin kaydında iki değişken hiç girilmemiş. Hepsi toplandığında veri setinin dörtte birine yakını delik deşik olabiliyor. SPSS bu gözlemleri varsayılan olarak listeden siliyor (listwise) ve %80 güç için tasarlanmış bir çalışmanın gücü %65'e kadar inebiliyor. Eksik veriyi bir teknik ayrıntı değil, stratejik bir karar olarak ele almak bu yüzden gerekiyor.

Eksik verinin ne olduğu ve silme ile doldurma seçeneklerinin temel karşılaştırması için eksik veri: silmek mi doldurmak mı yazımıza bakabilirsiniz; bu yazıda mekanizma belirleme, çoklu imputasyon ve duyarlılık analizi gibi ileri yöntemlere odaklanıyoruz.

Mekanizmayı anlamadan yöntem seçemezsiniz

Eksik veri analizi, "hangi kutucuğu dolduracağım" sorusuyla değil, "veri neden eksik?" sorusuyla başlıyor. Rubin'in 1976'da tanımladığı üç mekanizma, tüm stratejinin temelini oluşturuyor.

Laboratuvar numunesinin taşıma sırasında kırılması ya da veri giriş görevlisinin bir satırı atlaması — bunlar tamamen rastgele kayıp (MCAR). Eksiklik hiçbir değişkenle ilişkili değil ve gerçek hayatta çok nadir.

Yaşlı hastaların genç hastalara göre daha fazla vizit kaçırması, düşük eğitim düzeyindeki katılımcıların anketi daha sık yarım bırakması — bunlar koşullu rastgele kayıp (MAR). Eksiklik gözlenen değişkenlerle açıklanabiliyor ve çoklu imputasyon burada çalışıyor.

Ağır depresyondaki hastanın depresyon ölçeğini doldurmayı reddetmesi, yan etki yaşayan katılımcının ilaç çalışmasından çekilmesi — bunlar rastgele olmayan kayıp (MNAR). En sorunlu durum; standart yöntemler yanlı sonuç üretiyor.

Mekanizmayı kesin olarak belirlemek istatistiksel olarak imkânsız — MNAR tanımı gereği gözlenemeyen veriye dayanıyor. Bu yüzden pratikte MAR varsayımını kabul edip, MNAR olasılığını duyarlılık analiziyle değerlendirmek standart yaklaşım.

Little's MCAR testi: Ne söylüyor, ne söylemiyor?

Little'ın testi, farklı eksiklik örüntülerine sahip alt grupların ortalamalarını karşılaştıran bir ki-kare testi. p>0,05 ise MCAR reddedilemiyor. p<0,05 ise veriler MCAR değil — ama MAR mı MNAR mı, bunu test söylemiyor.

SPSS'te: Analyze > Missing Value Analysis > EM > MCAR Test. R'de: naniar::mcar_test(data) veya BaylorEdPsych::LittleMCAR(data).

Dikkat gerektiren bir nokta: büyük örneklemlerde klinik olarak önemsiz farklılıklar bile istatistiksel anlamlılığa ulaşabiliyor. Küçük örneklemlerde ise testin gücü düşük. Bu yüzden sadece teste güvenmek yetersiz — klinik muhakemeyle birlikte değerlendirmek gerekiyor.

Liste bazlı silme: neden yetersiz?

SPSS'te çoğu analiz varsayılan olarak liste bazlı silme (listwise deletion) uyguluyor. Basit ve MCAR altında yansız. Ama ciddi güç kaybı var. 10 değişkenin her birinde bağımsız %5 eksiklik varsa, tam gözlem oranı 0,95^10 = %60. Gözlemlerin %40'ı kaybediliyor.

İkili silme (pairwise deletion) daha fazla veri kullanıyor ama farklı analizler farklı örneklemler üzerinde yürüyor. Tutarsız sonuçlar çıkabiliyor, korelasyon matrisi pozitif belirli olmayabiliyor.

Uyarı

Ortalama ile doldurma (mean substitution) yöntemini kesinlikle önermiyoruz. Değişkenin varyansını sistematik olarak küçültüyor, değişkenler arası korelasyonları zayıflatıyor, standart hataları yapay biçimde daraltıyor. Modern istatistik pratiğinde kabul edilebilir bir yöntem olarak görülmüyor (Schafer & Graham 2002). LOCF (Last Observation Carried Forward) da benzer sorunlar taşıyor.

Çoklu imputasyon: en dayanıklı çözüm

Tek değerle doldurmanın aksine imputasyon belirsizliği standart hatalara yansıdığı için çıkarım geçerli kalır.

Rubin'in 1987'de önerdiği çoklu imputasyon (MI) üç aşamadan oluşuyor. Birinci aşamada eksik değerler için m adet tamamlanmış veri seti oluşturuluyor; her biri farklı, çünkü tahmin belirsizliğini yansıtıyor. İkinci aşamada ilgilendiğiniz analiz (regresyon, t-testi, ne olursa) her veri setinde ayrı ayrı çalıştırılıyor. Üçüncü aşamada m adet sonuç Rubin kurallarıyla birleştiriliyor. Havuzlanmış tahmin, m sonucun ortalaması; toplam varyans ise hem analiz içi hem analizler arası varyansı içeriyor — böylece imputasyon belirsizliği standart hatalara yansıyor.

MICE (Multivariate Imputation by Chained Equations — zincirleme denklemlerle çok değişkenli imputasyon) en yaygın MI algoritması. Her eksik değişken için ayrı bir model tanımlıyor: sürekli değişkenler için öngörücü ortalama eşleme (PMM), ikili değişkenler için lojistik regresyon, nominal değişkenler için multinomial lojistik. R'deki mice paketi bu esnekliği sunuyor; SPSS'in modülü daha sınırlı, özellikle kategorik değişkenlerde.

Küçük etki büyüklüklerinde güç, düşük m ile beklenenden çok daha hızlı düşer.

Kaç imputasyon yapılmalı? Eski "3-5" kuralı nokta tahminler ve göreli verimlilik için yeterli sonuç verir (Rubin 1987). Ancak Graham ve arkadaşlarının (2007) gösterdiği gibi, küçük etki büyüklüklerinde istatistiksel güç, düşük m ile beklenenden çok daha hızlı düşüyor. Bu nedenle güncel rehber (White ve ark. 2011) m'in en az eksik veri yüzdesi kadar seçilmesini öneriyor: %20 eksiklik varsa en az 20 imputasyon. Hesaplama gücü artık kısıt olmadığından m=50 veya m=100 kullanmak makul.

FIML: İmputasyon yapmadan analiz

Full Information Maximum Likelihood (FIML — tam bilgi en çok olabilirlik), eksik değerleri doldurmak yerine gözlenen verilerin olabilirlik fonksiyonunu maksimize ederek parametre tahmini yapıyor. Her gözlem için mevcut tüm bilgi kullanılıyor ve standart hatalar doğrudan doğru hesaplanıyor.

FIML, yapısal eşitlik modelleri (SEM) ve çok düzeyli modellerde özellikle güçlü. Mplus, lavaan (R) ve Amos destekliyor. MAR varsayımı altında MI ile asimptotik olarak eşdeğer sonuçlar veriyor.

Genel regresyon ve t-testi gibi analizlerde MI daha esnek bir çerçeve sunarken, SEM gibi model bazlı analizlerde FIML daha doğal bir seçenek.

Duyarlılık analizi: MAR varsayımını test etmek

MAR altında imputasyon yapıyorsunuz ama gerçek mekanizma MNAR ise sonuçlar yanlı olabilir. Bu riski değerlendirmek için duyarlılık analizi zorunlu.

Dönüm noktası (tipping point) analizi en yaygın yöntem. İmpute edilmiş değerlere sistematik bir sapma (delta) ekleniyor ve sonuçların hangi noktada anlamlılığını yitirdiği belirleniyor. Tedavi grubundaki eksik sonuç değerlerine delta=0, 1, 2, 3… eklenerek her senaryoda tedavi etkisi kontrol ediliyor. Dönüm noktası klinik olarak mantıksız bir düzeyde ise, sonuçlar MNAR'a karşı dayanıklı.

EMA ve FDA, klinik araştırma raporlarında duyarlılık analizini zorunlu kılıyor. Hakemler de %10'un üzerinde eksiklik olan çalışmalarda bunu arıyor. En sade yaklaşım olarak tam gözlem (complete case) analizi ile MI sonuçlarını karşılaştırarak tutarlılığı göstermek bile hiç yapmamaktan çok daha güçlü.

Raporlama

Eksik veri analizinin doğru raporlanması, hakem sürecinde karşılaşılan eleştirileri önlemenin en etkili yolu. STROBE, CONSORT ve RECORD kılavuzları detaylı bilgi verilmesini açıkça talep ediyor (Sterne ve ark. 2009).

Yöntem bölümünde: eksiklik mekanizması varsayımı ve gerekçesi, uygulanan yöntem, kaç imputasyon yapıldığı, modele dahil edilen değişkenler, duyarlılık analizi yaklaşımı ve kullanılan yazılım.

Sonuçlar bölümünde: her değişken için eksiklik oranı, Little's MCAR testi sonucu, MI/ML sonuçları (havuzlanmış tahminler), tam gözlem ile karşılaştırma ve duyarlılık analizi bulguları.

Örnek raporlama cümlesi: "Birincil sonuç değişkeninde %12,4 eksiklik gözlendi. Little's MCAR testi MCAR ile uyumsuz bulundu (χ²=34,2, sd=18, p=0,012). MAR varsayımı altında 20 tamamlanmış veri seti ile çoklu imputasyon uygulandı (MICE, PMM). Dönüm noktası yaklaşımıyla sonuçların delta=5 birime kadar dayanıklı olduğu gösterildi."

Türkiye'de eksik veri farkındalığı

Türkiye'deki tıp tezlerinin önemli bir bölümünde eksik veri sorununa hiç değinilmiyor veya yalnızca "eksik veriler analiz dışı bırakıldı" ifadesi kullanılıyor. SPSS yaygın olarak kullanılıyor ama çoklu imputasyon modülü kategorik değişkenlerde sınırlı. R'deki mice paketi çok daha esnek bir ekosistem sunuyor.

Etik kurul başvurularında eksik veri stratejisinin protokolde belirtilmesi giderek daha fazla kurul tarafından bekleniyor.

Model İstatistik olarak eksik veri stratejisinin planlanmasından raporlanmasına kadar tüm sürece rehberlik ediyoruz. Dropout rate hesaplama yazımız katılımcı düzeyindeki kayıpları, bu yazı ise değişken düzeyindeki eksiklikleri ele alıyor — ikisi birbirini tamamlıyor. Doğru mekanizma değerlendirmesi, uygun imputasyon yöntemi ve şeffaf raporlama ile eksik veri sorunu yönetilebilir bir teknik detaya dönüşüyor.

Kullanılan kaynaklar

Rubin DB. Inference and missing data. Biometrika. 1976;63(3):581-592. · DOI
Rubin DB. Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons; 1987.
Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychological Methods. 2002;7(2):147-177. · PMID: 12090408
Graham JW, Olchowski AE, Gilreath TD. How many imputations are really needed? Some practical clarifications of multiple imputation theory. Prevention Science. 2007;8(3):206-213. · DOI
White IR, Royston P, Wood AM. Multiple imputation using chained equations: issues and guidance for practice. Statistics in Medicine. 2011;30(4):377-399. · DOI
Sterne JAC, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393. · DOI

Rubin DB. Inference and missing data. Biometrika. 1976;63(3):581-592. · DOI
Rubin DB. Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons; 1987.
Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychological Methods. 2002;7(2):147-177. · PMID: 12090408
Graham JW, Olchowski AE, Gilreath TD. How many imputations are really needed? Some practical clarifications of multiple imputation theory. Prevention Science. 2007;8(3):206-213. · DOI
White IR, Royston P, Wood AM. Multiple imputation using chained equations: issues and guidance for practice. Statistics in Medicine. 2011;30(4):377-399. · DOI
Sterne JAC, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393. · DOI

Eksik Veri Analizi: Hangi Yöntemi Ne Zaman Tercih Etmeli?

Mekanizmayı anlamadan yöntem seçemezsiniz

Little's MCAR testi: Ne söylüyor, ne söylemiyor?

Liste bazlı silme: neden yetersiz?

Çoklu imputasyon: en dayanıklı çözüm

FIML: İmputasyon yapmadan analiz

Duyarlılık analizi: MAR varsayımını test etmek

Raporlama

Türkiye'de eksik veri farkındalığı

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Excel'den SPSS'e Veri Aktarımı: Adım Adım Süreç

Araştırmanız İçin Destek Alın

Eksik Veri Analizi: Hangi Yöntemi Ne Zaman Tercih Etmeli?

Mekanizmayı anlamadan yöntem seçemezsiniz

Little's MCAR testi: Ne söylüyor, ne söylemiyor?

Liste bazlı silme: neden yetersiz?

Çoklu imputasyon: en dayanıklı çözüm

FIML: İmputasyon yapmadan analiz

Duyarlılık analizi: MAR varsayımını test etmek

Raporlama

Türkiye'de eksik veri farkındalığı

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Excel'den SPSS'e Veri Aktarımı: Adım Adım Süreç

Araştırmanız İçin Destek Alın