SPSS çıktısında iki satır var: Kolmogorov-Smirnov p=0.200, Shapiro-Wilk p=0.038. Biri "normal" diyor, diğeri "normal değil." Hangisine güvenmek gerekiyor?
Doğru cevap: ikisine de körü körüne güvenmek yanıltıcı olabiliyor. Normallik değerlendirmesi tek bir testin p değerine indirgenemeyecek, sayısal ve görsel yöntemlerin birlikte kullanıldığı bir süreç. Bu yazıda hangi yöntemin hangi durumda daha güvenilir olduğunu deneyimlerimize dayanarak paylaşıyoruz.
Shapiro-Wilk neden altın standart?
Shapiro-Wilk testi, gözlenen değerlerin sıra istatistikleri ile normal dağılım altında beklenen değerler arasındaki uyuma bakıyor. W istatistiği 0–1 arasında değer alır; 1'e yakınlık normallik lehine yorumlanır.
Bu testin öne çıkma sebebi küçük örneklemlerdeki gücü. n<50 olduğunda diğer tüm normallik testlerinden daha hassas biçimde sapmaları tespit ediyor. Pilot çalışmalar, nadir hastalık araştırmaları, küçük gruplarla çalışan tez öğrencileri — hepsi için Shapiro-Wilk birincil tercih.
Üst sınır olarak n=5000 civarına kadar kullanılabiliyor. Ama burada bir paradoks devreye giriyor: büyük örneklemlerde test o kadar hassas hale geliyor ki pratikte önemsiz sapmalar bile p<0.05 veriyor. 300 kişilik bir veri setinde çarpıklık sadece 0.2 olsa bile Shapiro-Wilk "normal dağılmıyor" diyebiliyor.
Kolmogorov-Smirnov: bilinen ama sınırlı
K-S testi gözlenen ve teorik kümülatif dağılım fonksiyonları arasındaki maksimum farka bakıyor. SPSS'te "Kolmogorov-Smirnov with Lilliefors significance correction" olarak çıkar — bu düzeltme önemli çünkü parametreler veriden tahmin edildiğinde orijinal K-S testi yanıltıcı sonuç verebiliyor.
K-S testinin en büyük sınırlılığı küçük örneklemlerdeki düşük güç. n<50 olduğunda gerçek bir normallik ihlalini yakalama şansı Shapiro-Wilk'in çok gerisinde kalıyor. K-S p=0.200 verdi diye rahatlamak, küçük örneklemlerde yanıltıcı.
Birçok tezde ve makalede hala "normallik Kolmogorov-Smirnov testi ile değerlendirildi" ifadesi standart kalıp olarak kullanılıyor. Özellikle küçük örneklemli çalışmalarda bu tercih, hakemlerin eleştiri noktası haline gelebiliyor.
Görsel yöntemler: testin söylemediğini gösterir
Sayısal testler bir p değeri verir ama dağılımın şeklini göstermez. Normalite testi yorumlama yazımızda da vurguladığımız gibi görsel kontrol her zaman sayısal testten önce geliyor.
Q-Q (Quantile-Quantile) grafiği en bilgilendirici araç. Noktalar 45 derecelik referans çizgisine yakın diziliyorsa dağılım normale yakın. Uçlarda S şeklinde sapma varsa ağır kuyruklu dağılım (uç değer sinyali), sağa doğru kavis varsa sağa çarpıklık söz konusu. Q-Q grafiğinin güzel yanı: sapmanın türünü de teşhis etmesi.
| Q-Q Grafiği Paterni | Yorumu |
|---|---|
| Noktalar doğru üzerinde | Normal dağılıma uygun |
| Uçlarda yukarı sapma (S şekli) | Ağır kuyruklu, uç değer varlığı |
| Sağa doğru kavisli sapma | Sağa çarpık dağılım |
| Sola doğru kavisli sapma | Sola çarpık dağılım |
| Basamaklı yapı | Ölçüm hassasiyeti düşük |
Histogram genel şekli gösterir — simetri, tek tepelilik, kuyruk yapısı. Ama küçük örneklemlerde (n<30) aralık sayısı çok az olduğu için güvenilir görünüm sunmuyor; bu durumda Q-Q grafiği daha bilgilendirici.
Kutu grafiği simetriyi ve uç değerleri hızlıca gösterir. Medyan çizgisi kutunun ortasına yakınsa ve bıyıklar dengeliyse normallik lehine yorumlanabilir.
Çarpıklık ve basıklık: sayılarla değerlendirme
Normal dağılımda çarpıklık (skewness) = 0, fazlalık basıklık (excess kurtosis) = 0 beklenir. Sıfırdan uzaklaşma normallikten sapma sinyali.
Hangi eşik değerinin kullanılacağı örneklem büyüklüğüne bağlı:
| Kriter | Çarpıklık | Basıklık | Ne zaman? |
|---|---|---|---|
| Katı | ±0.5 | ±0.5 | Küçük örneklem, hassas analizler |
| Orta (genel kullanım) | ±1.0 | ±2.0 | Çoğu klinik araştırma |
| Esnek | ±2.0 | ±7.0 | Büyük örneklem, SEM |
z-skoru yöntemi de yaygın: çarpıklık değerini standart hatasına böldüğünüzde (SPSS Descriptives tablosunda her ikisi de var) çıkan z -1.96 ile +1.96 arasında kalıyorsa normallik lehine yorumlanır. Ama n>300'de z-skoru çok hassaslaşıyor, o noktadan sonra mutlak değer eşikleri daha pratik.
Örneklem Büyüklüğüne Göre Normallik Stratejisi
n < 50 (Küçük Örneklem)
n > 300 (Büyük Örneklem)
Bütüncül yaklaşım en güvenilir
Deneyimlerimize göre en sağlam karar, dört bilgi kaynağının birlikte değerlendirilmesiyle alınıyor: normallik testi (Shapiro-Wilk), Q-Q grafiği, çarpıklık-basıklık değerleri ve histogram. Bunların çoğunluğu normallik lehine veya aleyhine işaret ediyorsa, karar güvenilir oluyor.
Makaleye yazarken de bu bütüncül yaklaşımı yansıtmakta fayda var. Örnek: "Yaş değişkeninin normalliği Shapiro-Wilk testi, Q-Q grafiği ve çarpıklık-basıklık katsayıları ile değerlendirildi. Shapiro-Wilk testi sonucuna göre dağılım normal kabul edildi (W=0.973, p=0.284). Q-Q grafiğinde sistematik sapma gözlenmedi. Çarpıklık (0.32, SE=0.34) ve basıklık (−0.18, SE=0.67) katsayıları kabul edilebilir sınırlar içindeydi."
Bu tarz bir raporlama hakem değerlendirmesinde metodolojik güven oluşturuyor. İstatistik testi seçimi sürecinde normallik değerlendirmesinin doğru yapılması, revizyon taleplerini ciddi ölçüde azaltıyor.
Uyarı
Normallik testlerinde p>0.05 sonucu "veriler kesinlikle normal" anlamına gelmiyor. "Normal dağılmadığına dair yeterli kanıt yok" diyor — özellikle küçük örneklemlerde testin gücü düşük olduğundan gerçek bir sapma bile tespit edilemeyebilir. Q-Q grafiği bu boşluğu dolduran en değerli araç.
Normallik değerlendirmesinde hangi yöntemi ne zaman kullanacağınız konusunda tereddüt yaşıyorsanız, Model İstatistik ekibi olarak analiz planınızı birlikte şekillendirmekten memnuniyet duyarız. Doğru değerlendirme, doğru test seçiminin ve güçlü bir makalenin başlangıç noktası.