ANOVA anlamlı çıktı. F=4.12, p=0.003. Hakem geldi: "Post-hoc düzeltme yöntemi belirtilmemiş." SPSS'te Bonferroni seçtiniz, sonuçlar silindi. Tukey HSD denediniz, ikisi kaldı. Games-Howell baktınız, üçü kaldı. Sonra LSD denediniz, beşi anlamlı.
Hangisi doğru?
Hepsi farklı bir soruya cevap veriyor. Problem yöntemlerin birbiriyle çelişmesi değil, araştırmacının hangi soruyu sorduğunu bilmemesi.
Çoklu karşılaştırma problemi: 30 saniyede özet
Tek bir test için alfa 0.05 koyduğunuzda %5 yanlış pozitif kabul ediyorsunuz. Sorun yok. Ama 10 test yaparsanız, en az birinde yanlış pozitif bulma olasılığınız %40'a çıkar. 20 test yaparsanız %64.
Bu birikime family-wise error rate (FWER) deniyor. Düzeltme yöntemlerinin hepsinin ortak amacı bu şişmeyi kontrol altına almak. Ama bunu ne kadar sıkı yaptıkları, hangi bağlamda çalıştıkları ve ne kadar güç kaybettirdikleri çok farklı.
İki temel yaklaşım var. FWER kontrolü: "Hiç yanlış pozitif olmasın." FDR kontrolü: "Anlamlı bulduklarımın %5'inden fazlası yanlış olmasın." Bu ayrım, doğru yöntem seçiminin ilk adımı.
ANOVA sonrası post-hoc: Tukey, Dunnett, Scheffé
ANOVA sonrası ikili karşılaştırmalar için özelleştirilmiş yöntemler, genel amaçlı düzeltmelerden daha güçlü. Çünkü ANOVA'nın ortak hata varyans tahminini kullanıyorlar.
Tukey HSD. Tüm grup çiftlerini karşılaştıracaksanız birinci seçenek. John Tukey'in 1953'te geliştirdiği yöntem, studentized range dağılımını kullanır. FWER'yi tam olarak alfa düzeyinde tutar ama Bonferroni kadar acımasız değil. Eşit veya yakın grup büyüklüklerinde en güçlü sonucu verir. Eşit olmayan gruplarda Tukey-Kramer modifikasyonu devreye girer.
Dunnett testi. Her tedavi grubunu sadece kontrol grubuyla karşılaştırıyorsanız Dunnett çok daha güçlü. 4 tedavi + 1 kontrol varsa Tukey 10 karşılaştırma yapar. Dunnett sadece 4. Daha az karşılaştırma, daha yüksek güç. Doz-yanıt çalışmaları ve plasebo kontrollü denemelerde standart.
Scheffé testi. İkili değil, karmaşık kontrastları test etmek istiyorsanız tek seçenek. "A ve B gruplarının ortalaması C grubundan farklı mı?" gibi sorulara cevap verir. Ama sırf ikili karşılaştırma için kullanıyorsanız hem Tukey'den hem Bonferroni'den daha muhafazakar. Yanlış bağlamda Scheffé seçmek gereksiz güç kaybı demek.
Genel amaçlı düzeltmeler: Bonferroni, Holm, Hochberg
Bu yöntemler ANOVA'ya özel değil. Herhangi bir test kombinasyonuna uygulanabilir. t-testi + ki-kare + korelasyon yaptıysanız, yani farklı türde testler söz konusuysa bu kategorideki yöntemler gerekli.
Bonferroni. alfa/k. Basit, güvenli, acımasız. Az sayıda bağımsız test için mükemmel. Çok sayıda testte gereksiz güç kaybı. Detaylı analizi için Bonferroni düzeltmesi yazımızı inceleyebilirsiniz.
Holm-Bonferroni. Bonferroni'nin adımsal versiyonu. Aynı FWER kontrolü, daha yüksek güç. p değerlerini sıralayıp her adımda farklı eşik uygular. Birçok istatistikçi artık Bonferroni'nin kullanılacağı her yerde yerine Holm'u öneriyor.
Hochberg. Holm'un tersine çalışır — en büyük p değerinden başlayıp aşağı iner. Testler bağımsız veya pozitif bağımlı olduğunda Holm'dan bile daha güçlü. Negatif bağımlılıkta FWER kontrolü garanti edilmez.
Bu üç yöntemi aynı veri seti üzerinde karşılaştıralım. 6 test, p değerleri: 0.003, 0.009, 0.015, 0.022, 0.041, 0.190.
Bonferroni (eşik 0.0083): 1 anlamlı bulgu.
Holm (adımsal eşikler: 0.0083, 0.010, 0.0125...): 2 anlamlı bulgu. p=0.009, Holm eşiği 0.010 — anlamlı. Bonferroni bunu kaçırıyor.
Hochberg (ters adımsal): Aynı veri setinde Holm ile aynı sonuç. Ama bazı senaryolarda üçüncü bulguyu da kurtarabilir.
Akademik Not
Planlı karşılaştırmalar (a priori kontrastlar) ile plansız karşılaştırmalar (post-hoc testler) arasındaki ayrım hakem sürecinde belirleyici olabilir. Protokolünüzde "şu karşılaştırmalar önceden belirlenmiştir" ifadesi varsa, hakem daha liberal bir yaklaşımı kabul edebilir. Bu ifade yoksa sıkı düzeltme beklentisi haklı. İstatistik analiz planınızı bu ayrımı yansıtacak şekilde yazmanızı öneriyoruz.
FDR: keşif amaçlı analizlerin kurtarıcısı
1000 gen taradınız. FWER kontrolü yaparsanız alfa eşiğiniz 0.00005. Neredeyse hiçbir şey bulamazsınız. Ama amacınız doğrulama değil, keşif. Hangi genlerin aday olduğunu bulmak istiyorsunuz.
Benjamini-Hochberg (BH) prosedürü burada devreye girer. FWER yerine False Discovery Rate'i kontrol eder. "Anlamlı bulduğum sonuçlar arasında yanlış pozitif oranı en fazla %5 olsun."
100 karşılaştırmadan 20 tanesi anlamlı çıktıysa, FDR bu 20'nin en fazla 1'inin yanlış olmasına izin verir. FWER ise 100 testin hiçbirinde yanlış pozitif olmamasını garanti eder. Aradaki güç farkı dramatik.
BH prosedürünün uygulanması: p değerlerini küçükten büyüğe sıralayın. Her p(i) için kritik değer hesaplayın: (i/k) x q (q genellikle 0.05). En büyük i'yi bulun ki p(i) bu eşiğin altında kalsın. O i ve altındaki tüm sonuçlar anlamlı.
R'da uygulaması tek satır:
p.adjust(p_degerleri, method = "BH")
Ne zaman FDR, ne zaman FWER? Kural basit. Doğrulayıcı çalışma mı yapıyorsunuz, yani önceden belirlenmiş hipotezleri test mi ediyorsunuz? FWER. Keşifsel çalışma mı, yani çok sayıda değişkeni tarıyorsunuz? FDR. Klinik denemelerde genellikle FWER. Genomik, proteomik, epidemiyolojik taramalarda genellikle FDR.
10'dan az test yapıyorsanız FWER yeterli. 50-100 ve üzerinde FDR tercih edilmeli. 10-50 arası gri bölge — çalışmanızın doğrulayıcı mı keşifsel mi olduğuna göre karar verin.
Non-parametrik post-hoc: Kruskal-Wallis sonrası ne yapılır?
Veriler normal dağılmıyorsa Kruskal-Wallis testi yapıyorsunuz. Anlamlı çıktı. Post-hoc seçenekleri parametrik dünyadan daha sınırlı ama yeterli.
Dunn testi. Kruskal-Wallis sonrası en yaygın yöntem. Sıra ortalamalarını karşılaştırır. SPSS 26 ve üzerinde Kruskal-Wallis çıktısının "Pairwise Comparisons" sekmesinde otomatik sunulur, Bonferroni düzeltmesiyle. R'da dunn.test paketi Holm dahil birçok düzeltme yöntemiyle kullanılabilir.
Conover testi. Dunn'dan daha güçlü bir alternatif. ANOVA benzeri bir istatistik kullanarak sıra verilerine t-benzeri karşılaştırma uygular. R'da conover.test() fonksiyonuyla uygulanır.
Mann-Whitney U + Bonferroni. Her çift için ayrı Mann-Whitney yapmak mümkün ama Dunn'a göre daha muhafazakar. Her karşılaştırma kendi sıralama düzenini kullandığı için tutarsızlık riski taşır.
SPSS'te ne var, ne yok?
SPSS'in post-hoc menüsü zengin görünür ama önemli eksikleri var.
Menüde var: Tukey HSD, Bonferroni, Scheffé, Dunnett, Games-Howell, Tamhane T2, LSD. "Equal Variances Assumed" ve "Not Assumed" olarak iki bölümde sunulur.
Menüde yok: Holm düzeltmesi, FDR (Benjamini-Hochberg), Conover testi. Bunlar için R gerekiyor.
Holm'u SPSS'te elle yapabilirsiniz: p değerlerini sıralayın, en küçüğünü k ile, ikincisini k-1 ile çarpın. Ama 15 karşılaştırma varsa bu hata riski taşır. R'da p.adjust() fonksiyonu Bonferroni, Holm, Hochberg, BH ve daha fazlasını tek satırda uygular:
p.adjust(p_degerleri, method = "holm")
p.adjust(p_degerleri, method = "BH")
p.adjust(p_degerleri, method = "hochberg")
İpucu
Fisher'ın LSD testi SPSS'te en kolay erişilen seçenek ama en az güvenilir olanı. LSD aslında düzeltme uygulamıyor — sadece ANOVA'nın anlamlılığını bir "ön koruma" sayıyor. Üç grupta ve keşifsel amaçla kabul edilebilir, dört ve üzeri grupta hakemler bunu neredeyse kesinlikle eleştirir. LSD'nin cazibesine kapılmamakta fayda var.
Varyanslar homojen değilse ne olur?
Levene testi anlamlı çıktı. Varyanslar eşit değil. Bu durumda Tukey HSD'nin varsayımı ihlal edilmiş.
Games-Howell burada devreye girer. Welch t-testinin çoklu karşılaştırma versiyonu gibi düşünebilirsiniz. Her karşılaştırma için kendi hata varyansını ve serbestlik derecesini hesaplar. Güçlü ve güvenilir.
Tamhane T2 daha muhafazakar bir alternatif. Daha az Tip I hata yapma garantisi verir ama güç kaybı daha fazla.
Pratik kural: Levene anlamlı çıktıysa, SPSS'te Post Hoc menüsünün "Equal Variances Not Assumed" bölümünden Games-Howell tercih edilmeli. Bu kadar basit.
Keşifsel ve doğrulayıcı analizleri ayırmak
Makale yöntem bölümünde hangi analizlerin birincil (primary), hangilerinin keşifsel (exploratory) olduğunu açıkça yazmak, hakem sürecinde şeffaflık sağlar.
Birincil analizler: Protokolde tanımlanan, önceden planlanmış hipotez testleri. FWER kontrolü uygulanır.
Keşifsel analizler: Veriyi gördükten sonra ortaya çıkan, potansiyel yeni hipotez üreten analizler. FDR kontrolü uygulanır veya "exploratory" olduğu belirtilerek düzeltmesiz raporlanır — ama bu durumda "düzeltme yapılmamıştır, sonuçlar doğrulayıcı çalışmayla desteklenmelidir" ifadesi zorunlu.
Bu ayrımı yöntem bölümünde açıkça belirtmek, hakemin "düzeltme eksik" eleştirisini proaktif olarak önler.
Model İstatistik olarak çoklu karşılaştırma stratejisini çalışmanın tasarım aşamasında, istatistik analiz planına yazarak belirlemenizi öneriyoruz. Veri toplandıktan sonra yöntem seçmek hem bilimsel hem hakem sürecinde zayıf düşürür.
Doğru düzeltme yöntemi, sonuçlarınızın güvenilirliğini artırır. Yanlış düzeltme yöntemi, ya gerçek bulguları öldürür ya da sahte bulguları ayakta tutar. İkisi de kötü.