Normallik sağlanmıyor, "o zaman Mann-Whitney yaparız" deyip geçiyorsunuz. Peki Mann-Whitney gerçekten medyanları mı karşılaştırıyor? Ve Kruskal-Wallis anlamlı çıktığında hangi post-hoc testi uygulamak gerekiyor? Bu soruların cevabı sanıldığı kadar basit değil.
Ne zaman non-parametrik?
Non-parametrik testlere geçiş kararı dört temel durumda gündeme geliyor.
Normallik sağlanmadığında. Normallik testi yöntemleri ile değerlendirme yaptınız, Shapiro-Wilk anlamlı çıktı, Q-Q grafiğinde de belirgin sapma var, örneklem küçük — bu durumda non-parametrik test zorunlu hale geliyor.
Sıralı (ordinal) verilerde. Likert maddesi, ağrı skoru (hafif-orta-şiddetli), klinik evre — bunlar sıralı ölçek düzeyinde ve aritmetik ortalama hesaplamaya uygun değil. Non-parametrik test doğal tercih.
Uç değerler belirgin olduğunda. Aşırı uç değerler ortalama ve standart sapmayı çarpıtıyor. Non-parametrik testler sıra numaralarıyla çalıştığı için uç değerlere karşı dayanıklı.
Küçük örneklemlerde. Grup başına 10-15'in altında gözlem olduğunda parametrik varsayımları doğrulamak güçleşiyor. Non-parametrik testler daha güvenli bir seçenek sunuyor.
Ama bir nüans var: normallik sağlanıyorken gereksiz yere non-parametrik test kullanmak istatistiksel gücü düşürüyor — yani gerçek bir farkı yakalama şansı azalıyor. Bu güç kaybı tipik olarak %5-10 civarında. Doğru strateji varsayım kontrolü yapıp sonucuna göre bilinçli bir karar vermek.
Eşleştirme tablosu
| Senaryo | Parametrik | Non-Parametrik |
|---|---|---|
| İki bağımsız grup (sürekli) | t-testi | Mann-Whitney U |
| Aynı grup, iki ölçüm | Eşleşmiş t-testi | Wilcoxon işaretli sıralar |
| Üç+ bağımsız grup | Tek yönlü ANOVA | Kruskal-Wallis |
| Aynı grup, üç+ ölçüm | Tekrarlı ölçümler ANOVA | Friedman |
| İki sürekli değişken ilişkisi | Pearson korelasyon | Spearman korelasyon |
| İki kategorik değişken | Ki-kare | Fisher exact |
| Eşleşmiş kategorik veri | — | McNemar |
Bu tablo bir yol haritası, ama önemli bir nüans var: non-parametrik testler ortalamaları değil, dağılımların genel konumunu veya sıralamalarını karşılaştırıyor. Bu yüzden sonuçlar "A grubunun ortalaması yüksektir" yerine "A grubundaki değerler sistematik olarak daha yüksektir" biçiminde ifade ediliyor.
Mann-Whitney U: sanıldığından farklı
Mann-Whitney U en yaygın non-parametrik test ama en çok yanlış anlaşılan da. Yaygın inanış "medyanları karşılaştırır" şeklinde — ama bu yalnızca iki grubun dağılım şekilleri benzer olduğunda doğru.
Dağılım şekilleri farklıysa (biri çarpık, diğeri simetrik gibi) test aslında stokastik üstünlüğü ölçüyor: "A grubundan rastgele bir gözlemin B grubundan rastgele bir gözlemden büyük olma olasılığı %50'den farklı mı?"
Raporlamada medyan ve IQR (çeyrekler arası aralık) tercih ediliyor, ortalama ve standart sapma değil. Örnek formülasyon: "Tedavi grubunun medyan CRP düzeyi (Mdn=12.4, IQR=8.2–18.6), kontrol grubundan (Mdn=22.1, IQR=15.3–31.7) anlamlı olarak düşüktü (U=187, z=−3.41, p<.001, r=.45)."
Wilcoxon: eşleşmiş verilerin non-parametrik yolu
Wilcoxon işaretli sıralar testi, eşleşmiş t-testinin non-parametrik karşılığı. Aynı bireylerin iki koşuldaki ölçümlerini karşılaştırıyor. Mantığı basit: her bireyin iki ölçümü arasındaki fark hesaplanıyor, sıfır olan farklar çıkarılıyor, kalan farklar mutlak değerine göre sıralanıyor ve pozitif-negatif farkların sıra toplamları karşılaştırılıyor.
Tedavi öncesi-sonrası ölçümler, sağ göz-sol göz karşılaştırmaları gibi durumlar için uygun. Fark skorlarının simetrik dağılması bekleniyor (normallik şart değil ama simetri bekleniyor).
Kruskal-Wallis sonrası post-hoc
Kruskal-Wallis anlamlı çıktığında — tıpkı ANOVA sonrasında olduğu gibi — hangi gruplar arasında fark olduğunu post-hoc testlerle belirlemek gerekiyor. Bu adımı atlamak, "gruplar arasında fark var" deyip hangilerinde olduğunu göstermemek, hakemlerden neredeyse garantili bir revizyon talebi getiriyor.
En yaygın yöntem Dunn testi (Bonferroni düzeltmeli). SPSS'te Kruskal-Wallis çıktısında "All pairwise" seçeneği bunu otomatik veriyor. Conover testi Dunn'dan biraz daha güçlü bir alternatif. R'da dunn.test veya PMCMRplus paketleri işe yarıyor.
Friedman testi anlamlı çıktığında ise Bonferroni düzeltmeli Wilcoxon testleri veya Nemenyi testi devreye giriyor.
Çoklu karşılaştırma düzeltmesinin atlanmaması çok kritik — düzeltme yapılmadan her ikili karşılaştırmayı ayrı raporlamak Tip I hata riskini ciddi biçimde artırıyor. Çoklu karşılaştırma düzeltmeleri konusundaki yazımız bu yöntemleri detaylı ele alıyor.
Non-Parametrik Test Raporlama
Sık Yapılan Hatalar
Doğru Yaklaşım
Etki büyüklüğü: p yetmiyor
Non-parametrik testlerde de etki büyüklüğü raporlamak zorunlu hale geldi. Sadece p değeri sunmak hem editörler hem hakemler tarafından yetersiz bulunuyor.
| Test | Etki Büyüklüğü | Küçük / Orta / Büyük |
|---|---|---|
| Mann-Whitney U, Wilcoxon | r = Z / √N | 0.10 / 0.30 / 0.50 |
| Kruskal-Wallis | η²_H = (H − k + 1) / (N − k) | 0.01 / 0.06 / 0.14 |
| Friedman | Kendall's W | 0.10 / 0.30 / 0.50 |
| Ki-kare | Cramer's V | 0.10 / 0.30 / 0.50 |
| Fisher exact | Odds Ratio | 1.5 / 2.5 / 4.3 |
İpucu
Non-parametrik testlerin güç kaybı sık abartılıyor. Normal dağılım altında bile Mann-Whitney U'nun gücü t-testinin %95'ini aşıyor. Normallik varsayımı ihlal edildiğinde ise non-parametrik testler parametrik testlerden daha güçlü olabiliyor. "Non-parametrik kullandım, güç kaybettim" kaygısı — eğer varsayım gerçekten ihlal edildiyse — temelsiz.
Güç analizi planlaması
Non-parametrik testler için güç analizi hesabında genellikle parametrik karşılığının örneklem büyüklüğüne %5-15 ekleme öneriliyor. Yani t-testi için 64 kişi yetiyorsa, Mann-Whitney U için 67-74 kişi hedeflemekte fayda var. Bu ek yük çoğu klinik çalışmada karşılanabilir düzeyde. Örneklem büyüklüğü hesaplama yazımızda bu hesaplamaların detaylarını bulabilirsiniz.
Non-parametrik testlerin doğru uygulanması ve raporlanması konusunda tereddüt yaşıyorsanız, Model İstatistik ekibi olarak analiz planınızın her aşamasında yanınızdayız. Doğru test seçimi ve doğru raporlama, hakemlerden gelecek metodoloji eleştirilerini önceden bertaraf eden en güçlü araç. İstatistik testi seçimi sürecinin tamamında bilinçli gerekçelendirme, güçlü bir makalenin temel taşı.