Shapiro-Wilk p=0.03 ama histogram normale benziyor. Parametrik test kullanılabilir mi?

Örneklem büyüklüğüne bağlı. n>50 ise histogram ve Q-Q plot daha güvenilir — Shapiro-Wilk büyük örneklemlerde önemsiz sapmaları bile anlamlı gösteriyor. Çarpıklık ±1 içindeyse ve Q-Q plot'ta sistematik sapma yoksa parametrik test güvenle kullanılabiliyor.

t-testi anlamsız çıktı, Mann-Whitney deneyebilir miyim?

Sonuç beğenilmediği için test değiştirmek p-hacking'dir ve hakem bunu fark eder. Varsayım kontrolü yapılıp test seçimi sonuçtan önce belirlenmeli. Eğer normallik sınırda kaldıysa, her iki testin sonucunu birlikte raporlayıp tutarlılığı tartışmak şeffaf bir yaklaşım.

ANOVA anlamlı çıktı, sonra ne yapılır?

Post-hoc testlerle hangi grupların farklı olduğu belirlenir. Gruplar eşit büyüklükteyse Tukey HSD, eşit değilse Games-Howell yaygın tercih. Çoklu karşılaştırma düzeltmesi (Bonferroni vb.) uygulanması gerekiyor — düzeltmesiz ikili karşılaştırmalar Tip I hatayı ciddi biçimde artırıyor.

Bağımlı değişken kategorik (hastalık var/yok), bağımsız değişken sürekli (yaş). Hangi test?

Lojistik regresyon. t-testi ve ANOVA, bağımlı değişkenin sürekli olmasını gerektiriyor. İkili sonuç değişkeni için lojistik regresyon standart yaklaşım. Yaşı gruplara bölüp Ki-kare yapmak mümkün ama ciddi güç kaybına yol açıyor.

Eşleşmiş mi bağımsız mı olduğuna nasıl karar verilir?

Aynı kişiden iki ölçüm alındıysa eşleşmiş (paired): tedavi öncesi-sonrası, sağ-sol göz, ikiz kardeşler. Farklı kişilerden oluşan iki grup varsa bağımsız. Kilit soru: birinci gruptaki bir kişinin ikinci gruptaki biriyle doğal eşleşmesi var mı?

Non-parametrik test kullandım ama hakem 'neden t-test kullanmadınız' diyor. Ne yapılır?

Yanıtta normallik varsayımının sağlanmadığı gösterilir: Shapiro-Wilk sonucu, histogram ve Q-Q plot eklenir. 'Normallik varsayımı ihlal edildiği için non-parametrik test tercih edilmiştir' gerekçesi yeterli. Ek olarak sensitivity analysis kapsamında t-testi sonucu da sunulup tutarlılık gösterilebilir.

Çok fazla karşılaştırma var, hepsine ayrı test mi uygulanır?

Hayır. Önce omnibus test (ANOVA veya Kruskal-Wallis) ile genel fark test edilir, anlamlıysa post-hoc'a geçilir. İkili karşılaştırmalarda Bonferroni düzeltmesi uygulanır. Her karşılaştırmaya ayrı test yapmak Tip I hatayı katlanarak artırıyor — 10 test yapıldığında yanlışlıkla anlamlı bulma olasılığı %40'a çıkıyor.

İstatistik Testi Karar Ağacı: Hızlı Test Seçimi

İki grup karşılaştırmasında bağımsız t-testi mi Mann-Whitney U mu, üç grupta ANOVA mı Kruskal-Wallis mi? Test seçimini zorlaştıran şey testlerin kendisi değil; karar sürecinin birden fazla dallanma noktası içermesi. Danışmanlık sürecinde araştırmacıların en çok takıldığı nokta da tam burası — veriler hazır, ama hangi testin çalıştırılacağı net değil.

Bu yazı, doğru teste hızlıca ulaşmak için karar ağacını dört düğüm üzerinden — araştırma sorusu, değişken türü, grup yapısı ve normallik — görselleştiren pratik bir başvuru. Aynı karar ağacını kendi verinizle adım adım işletmek isterseniz interaktif istatistik test seçici aracımız soruları sırayla sorup uygun testi ve varsayım kontrollerini öneriyor. Her faktörün neden belirleyici olduğunu derinlemesine ele alan istatistik testi seçimi yazımız kavramsal tarafı tamamlıyor.

Dört düğümlük karar ağacı, olası testleri hızla doğru seçeneğe daraltıyor.

Birinci düğüm: araştırma sorusu

Tüm istatistik testleri üç ana sorudan birine yanıt veriyor:

"A grubu B grubundan yüksek mi?" sorusu karşılaştırma testlerine, "yaş arttıkça kan basıncı da artıyor mu?" sorusu korelasyona, "sigara kullanımı kanser riskini artırıyor mu?" sorusu regresyona yönlendiriyor.

İkinci düğüm: değişken tipi

Araştırma sorusundan sonra bağımlı değişkenin ölçüm düzeyi dallanmayı belirliyor:

Sürekli değişken (yaş, boy, HbA1c, tansiyon) → parametrik veya non-parametrik karşılaştırma testleri
Kategorik değişken (cinsiyet, hastalık var/yok, kan grubu) → Ki-kare, Fisher exact, lojistik regresyon
Sıralı değişken (Likert maddesi, ağrı skoru, klinik evre) → non-parametrik testler öncelikli

Bağımlı değişken kategorikken t-testi uygulamak en sık gördüğümüz hatalardan biri. Hastalık var/yok gibi ikili bir sonuç için lojistik regresyon gerekiyor.

Üçüncü düğüm: grup yapısı

Karşılaştırma sorusunda kaç grup olduğu ve grupların birbirinden bağımsız olup olmadığı testi doğrudan belirliyor.

İki grup:

Farklı hastalar → bağımsız (Independent t / Mann-Whitney)
Aynı hastaların iki ölçümü → eşleşmiş (Paired t / Wilcoxon)

Üç veya daha fazla grup:

Farklı hastalar → bağımsız (ANOVA / Kruskal-Wallis)
Aynı hastaların tekrarlı ölçümleri → tekrarlı (RM-ANOVA / Friedman)

Tedavi öncesi-sonrası ölçümler, sağ göz-sol göz karşılaştırması, ikiz kardeş verileri — bunlar eşleşmiş (paired) tasarım. Eşleşmiş veriyi bağımsız gibi analiz etmek istatistiksel gücü düşürürken, bağımsız veriyi eşleşmiş gibi analiz etmek Tip I hata riskini artırıyor.

Dördüncü düğüm: normallik kontrolü

Sürekli bir değişkenle karşılaştırma yapılacaksa son dallanma noktası normallik:

Normallik değerlendirmesinde yalnızca Shapiro-Wilk p değerine bakmak yeterli olmuyor. Normallik testi yöntemleri yazımızda ele aldığımız gibi histogram, Q-Q plot ve çarpıklık-basıklık katsayıları birlikte değerlendirildiğinde karar daha güvenilir oluyor. Büyük örneklemlerde (n>50) Shapiro-Wilk çok küçük sapmaları bile anlamlı bulacak kadar hassaslaştığından, histogram ve çarpıklık katsayısı daha bilgilendirici hale geliyor.

Hızlı eşleştirme tablosu

Senaryo	Parametrik	Non-parametrik
İki bağımsız grup, sürekli	Bağımsız t-testi	Mann-Whitney U
Aynı grup, iki ölçüm	Eşleşmiş t-testi	Wilcoxon
3+ bağımsız grup	Tek yönlü ANOVA	Kruskal-Wallis
3+ tekrarlı ölçüm	Tekrarlı ölçümler ANOVA	Friedman
İki sürekli değişken ilişkisi	Pearson korelasyon	Spearman korelasyon
İki kategorik değişken	Ki-kare	Fisher exact
İkili sonuç + risk faktörleri	Lojistik regresyon	—

Karar ağacının tuzak noktaları

Üç grupta ayrı ayrı t-testi yapmak. A-B, A-C, B-C şeklinde üç t-testi uygulandığında Tip I hata %5'ten yaklaşık %14'e çıkıyor (1 − 0,95³). Doğru yol: ANOVA veya Kruskal-Wallis ile genel farkı test edip, anlamlıysa post-hoc (Tukey, Bonferroni, Dunn) ile ikili karşılaştırma. Ayrıntıyı çoklu karşılaştırma düzeltmeleri yazımızda ele aldık.

Sürekli değişkeni kategorize edip Ki-kare yapmak. Yaşı "<40 / ≥40" diye ikiye bölüp Ki-kare uygulamak ciddi güç kaybına yol açıyor. Yaş zaten sürekli — t-testi veya regresyon çok daha güçlü sonuç veriyor.

Test sonucuna göre testi değiştirmek. t-testi anlamsız çıkınca Mann-Whitney'e geçmek, p-hacking'in en bilinen biçimlerinden biri. Varsayım kontrolü yapılıp test seçimi sonuçtan önce belirlenmeli; sonuca bakıp test değiştirmek hakemler tarafından kolayca fark ediliyor.

Normallik kontrolünü atlamak. Özellikle küçük örneklemlerde normallik varsayımını test etmeden parametrik analiz uygulamak, hakemlerden neredeyse garantili bir revizyon talebi getiriyor.

İpucu

Yöntem bölümünde test seçiminin gerekçesini açıkça belirtmekte fayda var: "Normallik varsayımı Shapiro-Wilk testi ve Q-Q grafiği ile değerlendirildi. Normal dağılan değişkenler için parametrik, dağılmayan değişkenler için non-parametrik testler uygulandı." Bu birkaç cümle, hakemlerin en sık sorduğu metodoloji sorusunu önceden yanıtlıyor.

Kararsız kalınan durumlarda her iki yaklaşımı (parametrik ve non-parametrik) uygulayıp sonuçların tutarlılığını göstermek güçlü bir strateji. p değeri anlamsız çıktığında ne yapılacağı da bu karar sürecinin doğal bir parçası. Model İstatistik ekibi olarak test seçiminden raporlamaya kadar analiz planınızı birlikte gözden geçiriyoruz.

Not: Bu karar ağacı en sık kullanılan testleri kapsar; çok merkezli, hiyerarşik veya tekrarlanan ölçümlü karmaşık tasarımlarda karma modeller ya da genelleştirilmiş doğrusal modeller gerekebilir. Test seçimi, çalışmanın kendi tasarımı ve varsayımları üzerinden kesinleştirilir.

Kullanılan kaynaklar

Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI
du Prel JB, Röhrig B, Hommel G, Blettner M. Choosing statistical tests: part 12 of a series on evaluation of scientific publications. Deutsches Ärzteblatt International. 2010;107(19):343-348. · DOI

Dört düğümlük karar ağacı, olası testleri hızla doğru seçeneğe daraltıyor.

Birinci düğüm: araştırma sorusu

Tüm istatistik testleri üç ana sorudan birine yanıt veriyor:

İkinci düğüm: değişken tipi

Araştırma sorusundan sonra bağımlı değişkenin ölçüm düzeyi dallanmayı belirliyor:

Sürekli değişken (yaş, boy, HbA1c, tansiyon) → parametrik veya non-parametrik karşılaştırma testleri
Kategorik değişken (cinsiyet, hastalık var/yok, kan grubu) → Ki-kare, Fisher exact, lojistik regresyon
Sıralı değişken (Likert maddesi, ağrı skoru, klinik evre) → non-parametrik testler öncelikli

Bağımlı değişken kategorikken t-testi uygulamak en sık gördüğümüz hatalardan biri. Hastalık var/yok gibi ikili bir sonuç için lojistik regresyon gerekiyor.

Üçüncü düğüm: grup yapısı

Karşılaştırma sorusunda kaç grup olduğu ve grupların birbirinden bağımsız olup olmadığı testi doğrudan belirliyor.

İki grup:

Farklı hastalar → bağımsız (Independent t / Mann-Whitney)
Aynı hastaların iki ölçümü → eşleşmiş (Paired t / Wilcoxon)

Üç veya daha fazla grup:

Farklı hastalar → bağımsız (ANOVA / Kruskal-Wallis)
Aynı hastaların tekrarlı ölçümleri → tekrarlı (RM-ANOVA / Friedman)

Dördüncü düğüm: normallik kontrolü

Sürekli bir değişkenle karşılaştırma yapılacaksa son dallanma noktası normallik:

Hızlı eşleştirme tablosu

Senaryo	Parametrik	Non-parametrik
İki bağımsız grup, sürekli	Bağımsız t-testi	Mann-Whitney U
Aynı grup, iki ölçüm	Eşleşmiş t-testi	Wilcoxon
3+ bağımsız grup	Tek yönlü ANOVA	Kruskal-Wallis
3+ tekrarlı ölçüm	Tekrarlı ölçümler ANOVA	Friedman
İki sürekli değişken ilişkisi	Pearson korelasyon	Spearman korelasyon
İki kategorik değişken	Ki-kare	Fisher exact
İkili sonuç + risk faktörleri	Lojistik regresyon	—

Karar ağacının tuzak noktaları

İpucu

Not: Bu karar ağacı en sık kullanılan testleri kapsar; çok merkezli, hiyerarşik veya tekrarlanan ölçümlü karmaşık tasarımlarda karma modeller ya da genelleştirilmiş doğrusal modeller gerekebilir. Test seçimi, çalışmanın kendi tasarımı ve varsayımları üzerinden kesinleştirilir.

Kullanılan kaynaklar

Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI
du Prel JB, Röhrig B, Hommel G, Blettner M. Choosing statistical tests: part 12 of a series on evaluation of scientific publications. Deutsches Ärzteblatt International. 2010;107(19):343-348. · DOI

Hangi İstatistik Testi Kullanmalıyım? Karar Ağacı

Birinci düğüm: araştırma sorusu

İkinci düğüm: değişken tipi

Üçüncü düğüm: grup yapısı

Dördüncü düğüm: normallik kontrolü

Hızlı eşleştirme tablosu

Karar ağacının tuzak noktaları

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Doğru İstatistik Testini Nasıl Seçersiniz?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Araştırmanız İçin Destek Alın

Hangi İstatistik Testi Kullanmalıyım? Karar Ağacı

Birinci düğüm: araştırma sorusu

İkinci düğüm: değişken tipi

Üçüncü düğüm: grup yapısı

Dördüncü düğüm: normallik kontrolü

Hızlı eşleştirme tablosu

Karar ağacının tuzak noktaları

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Doğru İstatistik Testini Nasıl Seçersiniz?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Araştırmanız İçin Destek Alın