Box plot'u açtığınızda üç nokta uçuyor. Histogram'da iki değer çok sağda. Silince sonuçlar anlamlı çıkıyor (p=0.03), bırakınca anlamsız (p=0.12).
Ne yapacaksınız?
Büyük ihtimalle yanlış cevabı buluyorsunuz. Çünkü outlier silmek kolay: bir tık, üç satır gidiyor, p-değeri düşüyor. Ama hakem "Bu üç hastayı neden çıkardınız?" diye sorduğunda "Outlier'dı" demek cevap değil. Klinik gerekçe olmadan silmek etik dışı.
Outlier nedir — gerçekten?
Uç değer, veri setinin geri kalanından istatistiksel olarak uzak olan gözlem demek. Ama "ne kadar uzak?" sorusunun iki farklı cevabı var.
İstatistiksel outlier: Z-skoru ≥ 3 olan değerler. Ya da IQR yöntemiyle Q1 - 1.5×IQR'den küçük veya Q3 + 1.5×IQR'den büyük olanlar. Bu tanım sayılara bakıyor, bağlamdan habersiz.
Klinik/biyolojik outlier: 80 yaşında kalp hızı 180/dk olan hasta. Ya da 50 kg ağırlığında hemoglobin 25 g/dL olan kişi. Bu tanım gerçeği arıyor — sayılar değil, anlam önemli.
Sorun şu: çoğu araştırmacı istatistiksel outlier'ı siliyor, klinik outlier'ı görmezden geliyor.
Tespit yöntemleri
Hepsinin artı-eksileri var. Hepsini uygulamak ve sonuca göre karar değiştirmemek önemli.
Box plot (görsel): Tek bakışta görülüyor ama sayısal eşik yok, subjektif. Uçan noktalar "kesin outlier" değil — potansiyel outlier. Her birine tek tek bakmak gerekiyor.
IQR yöntemi (Tukey): Alt sınır Q1 - 1.5×IQR, üst sınır Q3 + 1.5×IQR. Dağılım normalden uzaksa ve örneklem küçükse uygun. 1.5 katsayısı keyfi — bazı kaynaklarda extreme outliers için 3.0 öneriliyor. Eşiğin gerekçelendirilmesi önemli.
Z-skoru: Z = (X - Ortalama) / Standart Sapma. |Z| ≥ 3 eşiği yaygın. Dağılım normal dağılıma yakınsa ve büyük örneklemlerde uygun. Tuzak: outlier kendisi ortalamayı ve standart sapmayı etkiliyor. Robust versiyonlar (Modified Z-score, MAD bazlı) bu sorunu aşıyor.
Cook's Distance (regresyon için): Bir gözlem çıkarıldığında regresyon katsayılarının ne kadar değiştiğini ölçüyor. Cook's D > 4/n ise etki büyük. Sadece regresyon modelleri için geçerli.
Outlier bulundu — ne yapmalı?
Silmek: Veri giriş hatası (düzeltilemiyorsa), ölçüm hatası veya protokol ihlali varsa silmek mantıklı. Ama silme kararının raporlanması şart. "3 hasta aykırı değer nedeniyle çıkarıldı" değil, "3 hastada veri giriş hatası tespit edildi ve analiz dışı bırakıldı" yazmak doğru.
Dönüştürmek: Log, karekök, ters dönüşüm. Dağılımı normale yaklaştırıyor, uç değerlerin etkisini azaltıyor. Outlier gerçekse ama dağılım çarpıksa uygun. Dönüşüm sonrası yorumlama zorlaşıyor — "log(CRP) ortalaması 1.2 birim düştü" demek ham CRP'ye çevrilmeden anlam ifade etmiyor.
Bırakmak: Veri gerçekse, protokole uygunsa, klinik olarak makul ise — bırakmak en doğru yaklaşım. Non-parametrik testler (Mann-Whitney, Kruskal-Wallis) outlier'a daha az duyarlı. Robust istatistikler (medyan, trimmed mean) de işe yarıyor.
Hassasiyet analizi: altın standart
Karar verilemediğinde her iki senaryoyu test etmek en güvenilir yol:
- Outlier dahil → p = 0.12
- Outlier hariç → p = 0.03
Sonuç değişiyorsa bulgular outlier'a bağımlı demek. Bu durumda makalede her iki sonucu da raporlamak, "Hassasiyet analizinde, 3 uç değer çıkarıldığında sonuç anlamlı hale geldi (p=0.03)" yazmak ve tartışmada nedenlerini açıklamak en doğru yaklaşım. Hakem şeffaflığı değerli buluyor.
Sık yapılan hatalar
"p<0.05 için silmek." Bu veri manipülasyonu. Outlier silme kararı analiz öncesi verilmeli. Sonuca bakıp karar değiştirmek etik ihlal.
"Box plot'ta uçuyor, çıkardım." Box plot karar verme aracı değil, tespit aracı. Tespit ettikten sonra neden uçtuğunu araştırmak gerekiyor.
"Normallik testi başarısız, outlier'ları çıkarıyorum." Normallik testi başarısız oluyorsa sorun outlier değil, dağılımın kendisi olabilir. Non-parametrik teste geçmek veya dönüşüm yapmak daha doğru.
Uyarı
Hakem raporu senaryosu: "Authors removed 3 outliers without justification. This appears to be p-hacking." Bu cümleyi okumamak için outlier yönetimini protokolde tanımlayıp raporlamak önemli.
Raporlama
Methods bölümünde uç değer tespit yönteminin belirtilmesi, tespit edilen değerlerin kaynak verilerle kontrol edilmesi ve klinik değerlendirme sürecinin açıklanması gerekiyor. Results bölümünde kaç uç değer tespit edildiği, bu hastaların klinik durumu ve hassasiyet analizi sonuçları raporlanmalı.
Uç değer tespiti veri temizleme kontrol listesi sürecinin kritik bir parçası. Tespit sonrası karar aşamasında veri giriş hatalarını önleme stratejileri de dikkate alınmalı. Outlier'lar normallik varsayımını etkilediği için normallik testi yöntemleri ile birlikte değerlendirilmesi daha sağlıklı sonuç veriyor.
Uç değer yönetimi protokolde tanımlanıp prospektif olarak uygulandığında hakem sürecini kolaylaştırıyor. Model İstatistik CRO ekibi olarak hem veri analizi hem de raporlama süreçlerinde araştırmacının yanında duruyoruz.