Eksik verim %30, multiple imputation yapsam bile güvenilir mi?

%30 yüksek bir oran. Multiple imputation yapılabilir ama MAR varsayımı zayıflıyor, bias riski artıyor. Sensitivity analysis ile farklı senaryolarda sonuçların ne kadar değiştiğine bakmak ve Discussion'da limitasyon olarak belirtmek önemli.

SPSS'te multiple imputation sonuçlarını nasıl raporlarım?

SPSS pooled results verdiğinde hem ortalama katsayı hem de pooled standard error kullanılmalı. 'Regression coefficient: 0.45 (95% CI: 0.21-0.69), pooled from 10 imputed datasets' formatı yeterli. Methods'da imputation modeline dahil edilen değişkenler de belirtilmeli.

Listwise deletion ile multiple imputation sonuçları farklı çıktı, hangisini rapor edeyim?

Eksiklik MCAR değilse multiple imputation daha güvenilir. İkisini de raporlamak en şeffaf yaklaşım: 'Complete case analysis showed... (n=425). Multiple imputation yielded... (n=500).' Hakem bu şeffaflığı değerli buluyor.

Kategorik değişkende eksik veri nasıl doldurulur?

Multiple imputation kategorik değişkenler için de çalışıyor. SPSS'te değişken 'nominal' veya 'ordinal' olarak tanımlandığında logistic regression tabanlı imputation yapılıyor. Mode imputation (en sık kategoriye atama) ise varyansı azalttığı için önerilmiyor.

Little's MCAR test p=0.02 çıktı, ne yapmalıyım?

MCAR değilse muhtemelen MAR veya MNAR. MAR varsayımıyla multiple imputation yapılabilir. Eksikliği açıklayabilecek değişkenlerin (yaş, cinsiyet, baseline değerler) imputation modeline eklenmesi önemli. MNAR şüphesi varsa sensitivity analysis gerekiyor.

Longitudinal çalışmada her zaman noktasında farklı oranda eksiklik var, nasıl ele almalıyım?

Mixed models (linear mixed models veya GEE) eksik veriyi full information maximum likelihood ile otomatik ele alıyor. Listwise deletion yapılırsa sadece tüm ölçümleri tam olan hastalar kalıyor ve ciddi kayıp oluyor. Mixed models bu konuda çok daha verimli.

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Beş yüz hastalık, 12 aylık takipli retrospektif bir çalışmada HbA1c değerlerinin %15'i eksik olabilir. SPSS'te regresyon çalıştırıldığında "75 case excluded due to missing data" uyarısı çıkar ve analiz 425 hasta üzerinden yürür. Asıl soru burada başlıyor: kaybedilen 75 kişi daha genç miydi, glisemik kontrolleri daha mı kötüydü, yoksa yalnızca o dönem laboratuvar mı arızalıydı? Eksik veri probleminde tek bir doğru cevap yoktur; yalnızca "daha az yanlış" seçenekler vardır ve doğru seçim, eksikliğin nedenine bağlıdır.

Eksik veri neden oluşur?

Klinik araştırmalarda eksik verinin dört ana nedeni var: hasta takipten çıkması (ölüm, taşınma, ilacı bırakma), test yapılamaması (lab arızası, kit bitmesi), form eksik doldurulması (hassas sorularda yanıt vermeme, anketör hatası) ve veri kaybı (dosya kaybolması, sistem çökmesi).

Bu nedenler birbirinden farklı. Birincisi hasta ile ilgili, ikincisi teknik, üçüncüsü sosyal, dördüncüsü tamamen rastlantısal. Bu fark kritik çünkü eksik verinin "mekanizması" hangi yöntemin uygun olduğunu belirliyor.

Üç mekanizma: MCAR, MAR, MNAR

Eksikliğin neyle ilişkili olduğu, uygun yöntemi doğrudan belirler.

MCAR (Missing Completely at Random — tamamen rastgele): Eksiklik tamamen rastlantısal. HbA1c değeri eksik olanlarla olmayanlar arasında hiçbir fark yok. Hastanenin lab cihazı belli bir tarihte arızalandı, o gün gelen herkesin testi eksik kaldı — hastanın yaşı veya hastalık şiddetiyle ilgisi yok.

MAR (Missing at Random — koşullu rastgele): Eksiklik gözlemlenen başka bir değişkenle açıklanabiliyor ama eksik olan değişkenin kendisiyle ilgili değil. Genç hastalarda HbA1c testi eksikliği daha fazla çünkü gençler kontrole daha az geliyor. Yani eksiklik "yaş" ile ilişkili, "HbA1c değeri" ile değil.

MNAR (Missing Not at Random — rastgele değil): Eksiklik, eksik olan değerin kendisiyle ilişkili. HbA1c değeri çok kötü olan hastalar utandığı için kontrole gelmiyor. Eksik veri görmezden gelinirse ortalama HbA1c olduğundan daha iyi görünüyor.

Tam bir ayırt etme testi yok ama Little's MCAR testi SPSS'te mevcut. p>0,05 ise MCAR varsayımı geçerli olabilir. Daha iyi yöntem: eksik veri olanlarla olmayanları karşılaştırıp demografik/klinik farklılık olup olmadığına bakmak. Bu testin ne söyleyip ne söylemediğine ve ileri yöntemlere eksik veri analizi yöntemleri yazımızda ayrıntılı değiniyoruz.

Yöntem 1: Silme

Liste bazlı silme (listwise deletion / tam gözlem analizi): Eksik veri içeren tüm satır siliniyor. SPSS varsayılan olarak bunu yapıyor. Basit, anlaşılır ve MCAR varsayımı geçerliyse yanlılık oluşturmuyor. Ama örneklem küçülüyor, istatistiksel güç düşüyor. %20'den fazla eksiklik varsa ciddi kayıp söz konusu. MAR veya MNAR ise yanlılık oluşuyor.

Eksiklik %5'in altındaysa ve MCAR'sa liste bazlı silme güvenli bir seçenek.

İkili silme (pairwise deletion): Her analizde sadece o analizde kullanılan değişkenlerdeki eksiklik siliniyor. Korelasyon matrisi hesaplanırken her hücre farklı örneklem üzerinden hesaplanabiliyor. Tutarsızlık riski yüksek — matris "pozitif belirli" olmayabiliyor. Keşifsel analizlerde kullanılabilir ama final analiz için önerilmiyor.

Yöntem 2: Basit doldurma (tekli imputasyon)

Ortalama/medyan ile doldurma: Eksik değerler değişkenin ortalaması veya medyanı ile dolduruluyor. Örneklem sayısı korunuyor ama varyans azalıyor, korelasyonlar zayıflıyor, standart hatalar küçük çıkıyor. Tanımlayıcı istatistiklerde kullanılabilir ama çıkarımsal istatistiklerde (t-testi, regresyon) güvenilir sonuç vermiyor.

LOCF (Last Observation Carried Forward — son gözlemi taşıma): Uzunlamasına çalışmalarda eksik değer son bilinen değerle dolduruluyor. Değişimi görmezden geldiği için iyileşme küçümseniyor, kötüleşme abartılıyor.

Yöntem 3: Çoklu imputasyon (multiple imputation)

Modern istatistiğin önerdiği yöntem. Üç aşamada çalışıyor:

İmputasyon: Eksik değerler tahmin edilerek (regresyon veya öngörücü ortalama eşleme, PMM) birden fazla tamamlanmış veri seti oluşturuluyor.
Analiz: Her veri setinde ayrı ayrı analiz yapılıyor.
Havuzlama: Sonuçlar Rubin kurallarıyla birleştiriliyor, ortalama ve varyans hesaplanıyor.

Belirsizliği hesaba katıyor, standart hatalar doğru çıkıyor, MAR varsayımı altında yanlılık oluşturmuyor. Teknik olarak karmaşık ama SPSS'te "Analyze → Multiple Imputation" menüsünden yapılabiliyor. Kaç veri seti üretileceği (m) sabit bir sayı değil: güncel rehber, m'in en az eksik veri yüzdesi kadar seçilmesini öneriyor (White ve ark. 2011). Bunun gerekçesini ve MICE/FIML gibi ileri yöntemleri eksik veri analizi yazımızda derinlemesine ele alıyoruz.

Akademik Not

Çoklu imputasyon MAR varsayımı gerektiriyor. MNAR şüphesi varsa duyarlılık analizi yapmak önemli: en kötü, en olumlu ve ara senaryolar için imputasyon yapıp sonuçları karşılaştırmak. Sonuçlar tutarlıysa bulgular dayanıklı, tutarsızsa dikkatli yorumlamak gerekiyor.

Hangi yöntem?

Doğru yöntem, eksiklik oranı ile mekanizmanın kesişiminde belirlenir.

Eksiklik Oranı	Mekanizma	Önerilen Yöntem
< %5	MCAR	Liste bazlı silme
%5-20	MCAR	Ortalama ile doldurma (betimleyici) veya çoklu imputasyon (çıkarımsal)
%5-20	MAR	Çoklu imputasyon
%20+	MAR	Çoklu imputasyon (zorunlu)
Herhangi	MNAR	Duyarlılık analizi + uzman desteği

Raporlama

CONSORT ve STROBE kılavuzları eksik veri yönetiminin raporlanmasını gerektiriyor. Yöntem bölümünde eksik veri mekanizmasının nasıl değerlendirildiği, hangi yöntemin kullanıldığı ve imputasyon modeline hangi değişkenlerin dahil edildiği belirtilmeli. Sonuçlar bölümünde kaç hastada eksiklik olduğu ve eksik veri olanlarla olmayanlar arasında fark olup olmadığı raporlanmalı (Sterne ve ark. 2009).

Emin olunmadığında iki analiz yapmak işe yarıyor: hem liste bazlı silme hem çoklu imputasyon. Sonuçlar benzer çıkarsa sorun yok, farklı çıkarsa Tartışma bölümünde ele almak gerekiyor.

Eksik veriyi baştan önlemek

Eksik veriyi veri toplama sırasında en aza indirmek, analiz aşamasında çözmekten çok daha verimli. Prospektif çalışmalarda takip hatırlatmaları, esnek randevu saatleri ve alternatif iletişim kanalları yardımcı oluyor. Retrospektif çalışmalarda çoklu kaynak kullanımı (hastane kayıtları + e-Nabız + laboratuvar sistemi) eksikliği azaltıyor. Anket çalışmalarında zorunlu alan sayısını en azda tutmak ve hassas sorularda "Cevaplamak istemiyorum" seçeneği eklemek eksikliği ciddi oranda düşürüyor.

Eksik veri problemi her çalışmada farklı bir yaklaşım gerektiriyor. Model İstatistik CRO ekibi olarak hem istatistik analiz hem de veri kalitesi süreçlerinde araştırmacının yanında duruyoruz.

Kullanılan kaynaklar

Rubin DB. Inference and missing data. Biometrika. 1976;63(3):581-592. · DOI
Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychological Methods. 2002;7(2):147-177. · PMID: 12090408
Sterne JAC, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393. · DOI
White IR, Royston P, Wood AM. Multiple imputation using chained equations: issues and guidance for practice. Statistics in Medicine. 2011;30(4):377-399. · DOI

İmputasyon: Eksik değerler tahmin edilerek (regresyon veya öngörücü ortalama eşleme, PMM) birden fazla tamamlanmış veri seti oluşturuluyor.
Analiz: Her veri setinde ayrı ayrı analiz yapılıyor.
Havuzlama: Sonuçlar Rubin kurallarıyla birleştiriliyor, ortalama ve varyans hesaplanıyor.

Akademik Not

Hangi yöntem?

Doğru yöntem, eksiklik oranı ile mekanizmanın kesişiminde belirlenir.

Eksiklik Oranı	Mekanizma	Önerilen Yöntem
< %5	MCAR	Liste bazlı silme
%5-20	MCAR	Ortalama ile doldurma (betimleyici) veya çoklu imputasyon (çıkarımsal)
%5-20	MAR	Çoklu imputasyon
%20+	MAR	Çoklu imputasyon (zorunlu)
Herhangi	MNAR	Duyarlılık analizi + uzman desteği

Rubin DB. Inference and missing data. Biometrika. 1976;63(3):581-592. · DOI
Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychological Methods. 2002;7(2):147-177. · PMID: 12090408
Sterne JAC, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393. · DOI
White IR, Royston P, Wood AM. Multiple imputation using chained equations: issues and guidance for practice. Statistics in Medicine. 2011;30(4):377-399. · DOI

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Eksik veri neden oluşur?

Üç mekanizma: MCAR, MAR, MNAR

Yöntem 1: Silme

Yöntem 2: Basit doldurma (tekli imputasyon)

Yöntem 3: Çoklu imputasyon (multiple imputation)

Hangi yöntem?

Raporlama

Eksik veriyi baştan önlemek

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Eksik Veri Analizi: Hangi Yöntemi Ne Zaman Tercih Etmeli?

Uç Değer (Outlier) Tespiti ve Yönetimi: Silmek Çözüm mü?

Araştırmanız İçin Destek Alın

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Eksik veri neden oluşur?

Üç mekanizma: MCAR, MAR, MNAR

Yöntem 1: Silme

Yöntem 2: Basit doldurma (tekli imputasyon)

Yöntem 3: Çoklu imputasyon (multiple imputation)

Hangi yöntem?

Raporlama

Eksik veriyi baştan önlemek

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Eksik Veri Analizi: Hangi Yöntemi Ne Zaman Tercih Etmeli?

Uç Değer (Outlier) Tespiti ve Yönetimi: Silmek Çözüm mü?

Araştırmanız İçin Destek Alın