500 hasta, 12 aylık takip, retrospektif bir çalışma. HbA1c değerlerinin %15'i eksik. SPSS'te "Analyze → Regression" diyorsunuz, uyarı veriyor: "75 case excluded due to missing data."
Analiziniz 425 hasta üzerinden yürüyor. Kaybedilen 75 kişi acaba daha genç miydi? Daha kötü glisemik kontrolü mü vardı? Yoksa sadece o dönem hastanenin laboratuvarı mı arızalıydı?
Eksik veri probleminde doğru cevap yok, sadece "daha az yanlış" seçenekler var.
Eksik veri neden oluşur?
Klinik araştırmalarda eksik verinin dört ana nedeni var: hasta takipten çıkması (ölüm, taşınma, ilacı bırakma), test yapılamaması (lab arızası, kit bitmesi), form eksik doldurulması (hassas sorularda yanıt vermeme, anketör hatası) ve veri kaybı (dosya kaybolması, sistem çökmesi).
Bu nedenler birbirinden farklı. Birincisi hasta ile ilgili, ikincisi teknik, üçüncüsü sosyal, dördüncüsü tamamen rastlantısal. Bu fark kritik çünkü eksik verinin "mekanizması" hangi yöntemin uygun olduğunu belirliyor.
Üç mekanizma: MCAR, MAR, MNAR
MCAR (Missing Completely at Random): Eksiklik tamamen rastlantısal. HbA1c değeri eksik olanlarla olmayanlar arasında hiçbir fark yok. Hastanenin lab cihazı belli bir tarihte arızalandı, o gün gelen herkesin testi eksik kaldı — hastanın yaşı veya hastalık şiddetiyle ilgisi yok.
MAR (Missing at Random): Eksiklik gözlemlenen başka bir değişkenle açıklanabiliyor ama eksik olan değişkenin kendisiyle ilgili değil. Genç hastalarda HbA1c testi eksikliği daha fazla çünkü gençler kontrole daha az geliyor. Yani eksiklik "yaş" ile ilişkili, "HbA1c değeri" ile değil.
MNAR (Missing Not at Random): Eksiklik, eksik olan değerin kendisiyle ilişkili. HbA1c değeri çok kötü olan hastalar utandığı için kontrole gelmiyor. Eksik veri görmezden gelinirse ortalama HbA1c olduğundan daha iyi görünüyor.
Tam bir ayırt etme testi yok ama Little's MCAR testi SPSS'te mevcut. p>0.05 ise MCAR varsayımı geçerli olabilir. Daha iyi yöntem: eksik veri olanlarla olmayanları karşılaştırıp demografik/klinik farklılık olup olmadığına bakmak.
Veri temizleme kontrol listesi yazımızda eksik veri tespiti için adım adım rehber var.
Yöntem 1: Silme (Deletion)
Listwise deletion (complete case analysis): Eksik veri içeren tüm satır siliniyor. SPSS varsayılan olarak bunu yapıyor. Basit, anlaşılır ve MCAR varsayımı geçerliyse bias oluşturmuyor. Ama örneklem küçülüyor, istatistiksel güç düşüyor. %20'den fazla eksiklik varsa ciddi kayıp söz konusu. MAR veya MNAR ise bias oluşuyor.
Eksiklik %5'in altındaysa ve MCAR'sa listwise deletion güvenli bir seçenek.
Pairwise deletion: Her analizde sadece o analizde kullanılan değişkenlerdeki eksiklik siliniyor. Korelasyon matrisi hesaplanırken her hücre farklı örneklem üzerinden hesaplanabiliyor. Tutarsızlık riski yüksek — matris "positive definite" olmayabiliyor. Keşifsel analizlerde kullanılabilir ama final analiz için önerilmiyor.
Yöntem 2: Basit doldurma (Single imputation)
Mean/median imputation: Eksik değerler değişkenin ortalaması veya medyanı ile dolduruluyor. Örneklem sayısı korunuyor ama varyans azalıyor, korelasyonlar zayıflıyor, standart hatalar küçük çıkıyor. Tanımlayıcı istatistiklerde kullanılabilir ama inferential istatistiklerde (t-test, regresyon) güvenilir sonuç vermiyor.
LOCF (Last Observation Carried Forward): Uzunlamasına çalışmalarda eksik değer son bilinen değerle dolduruluyor. Değişimi görmezden geldiği için iyileşme küçümseniyor, kötüleşme abartılıyor. Retrospektif çalışma tasarımı yazımızda uzunlamasına veri toplama ipuçları var.
Yöntem 3: Çoklu doldurma (Multiple imputation)
Modern istatistiğin önerdiği yöntem. Üç aşamada çalışıyor:
- Imputation: Eksik değerler tahmin edilerek (regresyon, PMM yöntemleriyle) 5-10 farklı veri seti oluşturuluyor.
- Analysis: Her veri setinde ayrı ayrı analiz yapılıyor.
- Pooling: Sonuçlar birleştiriliyor, ortalama ve varyans hesaplanıyor.
Belirsizliği hesaba katıyor, standart hatalar doğru çıkıyor, MAR varsayımı altında bias oluşturmuyor. Teknik olarak karmaşık ama SPSS'te "Analyze → Multiple Imputation → Impute Missing Data Values" menüsünden yapılabiliyor.
Akademik Not
Multiple imputation MAR varsayımı gerektiriyor. MNAR şüphesi varsa sensitivity analysis yapmak önemli: en kötü senaryo, en iyi senaryo ve orta senaryo ile imputation yapıp sonuçları karşılaştırmak. Sonuçlar tutarlıysa bulgular robust, tutarsızsa dikkatli yorumlamak gerekiyor.
Hangi yöntem?
| Eksiklik Oranı | Mekanizma | Önerilen Yöntem |
|---|---|---|
| < %5 | MCAR | Listwise deletion |
| %5-20 | MCAR | Mean imputation (betimleyici) veya MI (inferential) |
| %5-20 | MAR | Multiple imputation |
| %20+ | MAR | Multiple imputation (zorunlu) |
| Herhangi | MNAR | Sensitivity analysis + uzman desteği |
Raporlama
CONSORT ve STROBE kılavuzları eksik veri yönetiminin raporlanmasını gerektiriyor. Methods bölümünde eksik veri mekanizmasının nasıl değerlendirildiği, hangi yöntemin kullanıldığı ve imputation modeline hangi değişkenlerin dahil edildiği belirtilmeli. Results bölümünde kaç hastada eksiklik olduğu ve eksik veri olanlarla olmayanlar arasında fark olup olmadığı raporlanmalı.
Emin olunmadığında iki analiz yapmak işe yarıyor: hem listwise deletion hem multiple imputation. Sonuçlar benzer çıkarsa sorun yok, farklı çıkarsa Discussion'da tartışmak gerekiyor.
Önlemek tedaviden iyi
Eksik veriyi veri toplama sırasında minimize etmek analiz aşamasında çözmekten çok daha verimli. Prospektif çalışmalarda takip hatırlatmaları, esnek randevu saatleri ve alternatif iletişim kanalları yardımcı oluyor. Retrospektif çalışmalarda çoklu kaynak kullanımı (hastane kayıtları + e-nabız + laboratuvar sistemi) eksikliği azaltıyor. Anket çalışmalarında zorunlu alan sayısını minimumda tutmak ve hassas sorularda "Cevaplamak istemiyorum" seçeneği eklemek eksikliği ciddi oranda düşürüyor.
Eksik veri problemi her çalışmada farklı bir yaklaşım gerektiriyor. Model İstatistik CRO ekibi olarak hem istatistik analiz hem de veri kalitesi süreçlerinde araştırmacının yanında duruyoruz.