Tukey HSD ile Bonferroni arasındaki fark nedir? Hangisi tercih edilmeli?

Tukey HSD, ANOVA sonrası tüm ikili karşılaştırmalar için özel olarak tasarlanmış. Ortak hata varyansını kullandığı için Bonferroni'den daha güçlü. Bonferroni ise genel amaçlı, herhangi bir test tipine uygulanabilir. ANOVA sonrası tüm çiftleri karşılaştıracaksanız Tukey HSD tercih edilmeli. Birbirinden bağımsız, farklı türde testler yapıyorsanız Bonferroni veya Holm kullanmak daha uygun.

Kruskal-Wallis anlamlı çıktı, post-hoc ne yapmalıyım?

En yaygın yaklaşım Dunn testi. SPSS 26 ve üzerinde otomatik sunulur. R'da dunn.test veya FSA paketi kullanılabilir. Düzeltme olarak Holm veya Bonferroni tercih edilebilir. Conover testi daha güçlü bir alternatif ama R gerektirir.

FDR kullanırsam hakem kabul eder mi?

Alanınıza bağlı. Genomik, biyoinformatik, nörobilim gibi alanlarda FDR standart. Klasik klinik çalışmalarda FWER yöntemleri daha yaygın. FDR kullanacaksanız, yöntem bölümünde neden bu yöntemi seçtiğinizi açıklamanız ve analizlerinizin keşifsel niteliğini belirtmeniz önerilir.

Varyanslar homojen değilse hangi post-hoc test kullanılmalı?

Levene testi anlamlı çıktıysa Games-Howell tercih edilmeli. Her karşılaştırma için kendi hata varyansını hesaplar. SPSS'te Post Hoc menüsünde 'Equal Variances Not Assumed' bölümünden seçilebilir. Daha muhafazakar bir alternatif olarak Tamhane T2 de düşünülebilir.

SPSS'te Holm düzeltmesi veya FDR nasıl uygulanır?

SPSS menüsünde bu seçenekler doğrudan yok. Holm için p değerlerini SPSS'ten aldıktan sonra elle uygulayabilirsiniz: küçükten büyüğe sıralayıp her birini azalan çarpanlarla çarparak. FDR için R kullanmak çok daha pratik: p.adjust(p_values, method='BH') tek satırda halleder.

Üç grupta LSD testi kullanabilir miyim?

Teknik olarak üç grup ve ANOVA anlamlıysa 'korumalı LSD' kabul edilebilir. Ama hakemler tarafından yetersiz bulunma riski yüksek. Güvenli tarafta kalmak için üç grupta bile Tukey HSD veya Holm-Bonferroni tercih etmenizi öneriyoruz.

Çoklu karşılaştırma düzeltmesi Bayesian analizde de gerekli mi?

Bayesian çerçevede problem farklı ele alınır. Her hipotez kendi posterior dağılımıyla değerlendirildiği için klasik anlamda düzeltme gerekmez. Ama model karmaşıklığını cezalandıran prior'lar ve karar eşiği ayarlamaları yaygın. Bayesian yaklaşım kullanıyorsanız, metodolojinizi detaylı açıklamakta fayda var.

Çoklu Karşılaştırma Düzeltmeleri: Yöntem Seçim Rehberi

ANOVA anlamlı çıktığında sıra ikili karşılaştırmalara geliyor ve burada çok sayıda yöntem birbiriyle çelişebiliyor: Bonferroni sonuçların çoğunu siler, Tukey HSD birkaçını korur, Games-Howell biraz daha fazlasını, Fisher LSD ise neredeyse hepsini anlamlı bulur. Hangisi doğru? Aslında hepsi farklı bir soruya yanıt veriyor; asıl mesele yöntemlerin çelişmesi değil, araştırmacının hangi soruyu sorduğunu netleştirmemesi. Bu yazı, çoklu karşılaştırma düzeltmelerini hangi durumda hangisinin uygun olduğu üzerinden bir harita gibi ele alıyor.

Çoklu karşılaştırma problemi: kısa özet

Tek bir test için alfayı 0,05 koyduğunuzda %5 yanlış pozitifi kabul ediyorsunuz; sorun yok. Ama 10 test yaparsanız en az birinde yanlış pozitif bulma olasılığınız %40'a, 20 testte %64'e çıkıyor.

Düzeltme yöntemlerinin ortak amacı bu birikimi kontrol altında tutmak.

Bu birikime family-wise error rate (FWER) deniyor. Düzeltme yöntemlerinin hepsi bu şişmeyi kontrol etmeyi amaçlar; ama ne kadar sıkı davrandıkları, hangi bağlamda çalıştıkları ve ne kadar güç kaybettirdikleri çok farklı. İki temel yaklaşım var — FWER kontrolü ("hiç yanlış pozitif olmasın") ve FDR kontrolü ("anlamlı bulduklarımın %5'inden fazlası yanlış olmasın"). Curran-Everett'in (2000) belirttiği gibi, doğru yöntem seçiminin ilk adımı bu felsefeyi netleştirmek.

Hangi durumda hangi yöntem?

Düzeltme seçimi, sorunun türüne ve amacın doğrulayıcı mı keşifsel mi olduğuna göre birkaç gruba ayrılıyor:

Önce FWER mi FDR mi sorusu, sonra bağlam yöntemi belirliyor.

Durum	Yaklaşım	Önerilen yöntem
ANOVA sonrası, tüm çiftler	FWER	Tukey HSD
ANOVA sonrası, kontrol ile	FWER	Dunnett
ANOVA sonrası, karmaşık kontrastlar	FWER	Scheffé
Farklı/bağımsız testler, az sayıda	FWER	Bonferroni / Holm
Keşifsel, çok sayıda test (genomik vb.)	FDR	Benjamini-Hochberg

ANOVA sonrası post-hoc: Tukey, Dunnett, Scheffé

ANOVA sonrası ikili karşılaştırmalar için özelleştirilmiş yöntemler, genel amaçlı düzeltmelerden daha güçlü; çünkü ANOVA'nın ortak hata varyansı tahminini kullanıyorlar.

Tukey HSD. Tüm grup çiftlerini karşılaştıracaksanız ilk seçenek. John Tukey'in 1953'te geliştirdiği yöntem studentized range dağılımını kullanır, FWER'yi tam olarak alfa düzeyinde tutar ama Bonferroni kadar acımasız değildir. Eşit ya da yakın grup büyüklüklerinde en güçlü sonucu verir; eşit olmayan gruplarda Tukey-Kramer düzeltmesi kullanılır.

Dunnett testi. Her tedavi grubunu yalnızca kontrol grubuyla karşılaştırıyorsanız çok daha güçlü. 4 tedavi + 1 kontrol varsa Tukey 10, Dunnett yalnızca 4 karşılaştırma yapar — daha az karşılaştırma, daha yüksek güç. Doz-yanıt ve plasebo kontrollü çalışmalarda standart.

Scheffé testi. İkili değil, karmaşık kontrastları test etmek istiyorsanız uygun seçenek ("A ve B gruplarının ortalaması C'den farklı mı?"). Ancak sırf ikili karşılaştırma için kullanılırsa hem Tukey'den hem Bonferroni'den daha muhafazakârdır; yanlış bağlamda Scheffé seçmek gereksiz güç kaybı demek.

Genel amaçlı düzeltmeler: Bonferroni, Holm, Hochberg

Bu yöntemler ANOVA'ya özel değil; herhangi bir test kombinasyonuna uygulanabilir. Farklı türde testler (t-testi + ki-kare + korelasyon) söz konusuysa bu kategori gerekli. Bonferroni (alfa/k) basit, güvenli ama acımasızdır; az sayıda bağımsız test için mükemmel, çok sayıda testte gereksiz güç kaybı yaratır. Holm-Bonferroni, Bonferroni'nin adımsal sürümüdür — aynı FWER kontrolünü daha yüksek güçle sağlar. Hochberg, en büyük p değerinden başlayıp aşağı iner; testler bağımsız ya da pozitif bağımlıysa Holm'dan bile güçlüdür, ama negatif bağımlılıkta FWER kontrolü garanti edilmez.

Bu üç yöntem arasında Holm, Bonferroni'nin yaptığı her şeyi yapıp daha fazla bulgu koruduğu için çoğu istatistikçinin varsayılan önerisi hâline geldi; adımsal eşiklerin somut bir örnek üzerinde nasıl bir bulgu daha kurtardığını Bonferroni düzeltmesi yazımızda gösterdik.

Akademik Not

Planlı karşılaştırmalar (a priori kontrastlar) ile plansız karşılaştırmalar (post-hoc testler) arasındaki ayrım hakem sürecinde belirleyici olabiliyor. Protokolünüzde "şu karşılaştırmalar önceden belirlenmiştir" ifadesi varsa hakem daha esnek bir yaklaşımı kabul edebilir; bu ifade yoksa sıkı düzeltme beklentisi haklı. İstatistik analiz planınızı bu ayrımı yansıtacak biçimde yazmakta fayda var.

FDR: keşif amaçlı analizlerin çözümü

1000 gen taradığınızda FWER kontrolüyle alfa eşiğiniz 0,00005'e iner ve neredeyse hiçbir şey bulamazsınız. Ama amacınız doğrulama değil keşifse — hangi genlerin aday olduğunu bulmaksa — Benjamini-Hochberg (BH) prosedürü bu noktada uygun. FWER yerine yanlış keşif oranını (False Discovery Rate) kontrol eder: "anlamlı bulduklarım arasında yanlış pozitif oranı en fazla %5 olsun."

100 karşılaştırmadan 20'si anlamlı çıktıysa, FDR bu 20'nin en fazla 1'inin yanlış olmasına izin verir; FWER ise 100 testin hiçbirinde yanlış pozitif olmamasını garanti eder ve aradaki güç farkı büyüktür. BH prosedürünün uygulanması: p değerlerini küçükten büyüğe sıralayın, her p(i) için (i/k) × q kritik değerini hesaplayın (q genellikle 0,05), bu eşiğin altında kalan en büyük i'yi bulun; o i ve altındaki tüm sonuçlar anlamlıdır. R'da tek satır:

p.adjust(p_degerleri, method = "BH")

Ne zaman FDR, ne zaman FWER? Kural sade: doğrulayıcı çalışmada (önceden belirlenmiş hipotezler) FWER, keşifsel çalışmada (çok sayıda değişken taraması) FDR. Klinik denemelerde genellikle FWER; genomik, proteomik ve epidemiyolojik taramalarda genellikle FDR. 10'dan az testte FWER yeterli, 50-100 ve üzerinde FDR tercih edilir; 10-50 arası gri bölgede çalışmanın doğrulayıcı mı keşifsel mi olduğuna göre karar verilir.

Non-parametrik post-hoc: Kruskal-Wallis sonrası

Veriler normal dağılmıyorsa Kruskal-Wallis testi kullanılıyor ve anlamlı çıktığında post-hoc seçenekleri parametrik dünyadan daha sınırlı ama yeterli. Dunn testi, Kruskal-Wallis sonrası en yaygın yöntem; sıra ortalamalarını karşılaştırır ve SPSS 26 ve üzerinde "Pairwise Comparisons" sekmesinde Bonferroni düzeltmesiyle otomatik sunulur, R'da dunn.test paketi birçok düzeltmeyle çalışır. Conover testi Dunn'dan daha güçlü bir alternatiftir. Mann-Whitney U + Bonferroni ise her çift için ayrı test yapmayı mümkün kılar ama daha muhafazakârdır ve her karşılaştırma kendi sıralamasını kullandığından tutarsızlık riski taşır. Ayrıntı için non-parametrik test seçimi yazımıza bakabilirsiniz.

SPSS'te ne var, ne yok?

SPSS'in post-hoc menüsü zengin görünür ama önemli eksikleri var. Menüde var: Tukey HSD, Bonferroni, Scheffé, Dunnett, Games-Howell, Tamhane T2, LSD ("Equal Variances Assumed" ve "Not Assumed" olarak). Menüde yok: Holm düzeltmesi, FDR (Benjamini-Hochberg), Conover testi — bunlar için R gerekir. Holm'u elle de yapabilirsiniz ama 15 karşılaştırmada bu hata riski taşır; R'da p.adjust() fonksiyonu hepsini tek satırda uygular:

p.adjust(p_degerleri, method = "holm")
p.adjust(p_degerleri, method = "BH")
p.adjust(p_degerleri, method = "hochberg")

İpucu

Fisher'ın LSD testi SPSS'te en kolay erişilen seçenek ama en az güvenilir olanı: LSD aslında düzeltme uygulamaz, yalnızca ANOVA'nın anlamlılığını bir "ön koruma" sayar. Üç grupta ve keşifsel amaçla kabul edilebilir; dört ve üzeri grupta hakemler bunu neredeyse kesinlikle eleştirir.

Varyanslar homojen değilse?

Levene testi anlamlı çıktıysa varyanslar eşit değil demektir ve Tukey HSD'nin varsayımı ihlal edilmiştir. Bu durumda Games-Howell uygun seçenek — Welch t-testinin çoklu karşılaştırma karşılığı gibi düşünülebilir, her karşılaştırma için kendi hata varyansını ve serbestlik derecesini hesaplar. Tamhane T2 daha muhafazakâr bir alternatiftir; daha az Tip I hata garantisi verir ama güç kaybı daha fazladır. Pratik kural: Levene anlamlıysa SPSS'te "Equal Variances Not Assumed" bölümünden Games-Howell tercih edilmeli.

Keşifsel ve doğrulayıcı analizleri ayırmak

Makale yöntem bölümünde hangi analizlerin birincil (primary), hangilerinin keşifsel (exploratory) olduğunu açıkça yazmak hakem sürecinde şeffaflık sağlıyor. Birincil analizler protokolde tanımlı, önceden planlı hipotez testleridir ve FWER kontrolü uygulanır. Keşifsel analizler veriyi gördükten sonra ortaya çıkan, yeni hipotez üreten analizlerdir; FDR kontrolü uygulanır ya da "exploratory" olduğu belirtilerek düzeltmesiz raporlanır — ama bu durumda "düzeltme yapılmamıştır, sonuçlar doğrulayıcı çalışmayla desteklenmelidir" ifadesi zorunludur. Bu ayrımı baştan belirtmek, hakemin "düzeltme eksik" eleştirisini önden karşılıyor.

Model İstatistik olarak çoklu karşılaştırma stratejisini çalışmanın tasarım aşamasında, istatistik analiz planına yazarak belirlemeyi öneriyoruz. Veri toplandıktan sonra yöntem seçmek hem bilimsel hem hakem açısından zayıf bir konum yaratıyor. Doğru düzeltme yöntemi sonuçların güvenilirliğini artırır; yanlışı ise ya gerçek bulguları eler ya da sahte bulguları ayakta tutar.

Not: Buradaki eşikler ve örnek değerler yol gösterici niteliktedir; yöntem seçimi çalışmanın tasarımına, test sayısına ve amacına (doğrulayıcı/keşifsel) göre kesinleştirilir.

Kullanılan kaynaklar

Curran-Everett D. Multiple comparisons: philosophies and illustrations. American Journal of Physiology - Regulatory, Integrative and Comparative Physiology. 2000;279(1):R1-R8. · DOI
Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 1995;57(1):289-300. · DOI

Çoklu karşılaştırma problemi: kısa özet

Düzeltme yöntemlerinin ortak amacı bu birikimi kontrol altında tutmak.

Hangi durumda hangi yöntem?

Düzeltme seçimi, sorunun türüne ve amacın doğrulayıcı mı keşifsel mi olduğuna göre birkaç gruba ayrılıyor:

Önce FWER mi FDR mi sorusu, sonra bağlam yöntemi belirliyor.

Durum	Yaklaşım	Önerilen yöntem
ANOVA sonrası, tüm çiftler	FWER	Tukey HSD
ANOVA sonrası, kontrol ile	FWER	Dunnett
ANOVA sonrası, karmaşık kontrastlar	FWER	Scheffé
Farklı/bağımsız testler, az sayıda	FWER	Bonferroni / Holm
Keşifsel, çok sayıda test (genomik vb.)	FDR	Benjamini-Hochberg

p.adjust(p_degerleri, method = "BH")

Non-parametrik post-hoc: Kruskal-Wallis sonrası

SPSS'te ne var, ne yok?

p.adjust(p_degerleri, method = "holm")
p.adjust(p_degerleri, method = "BH")
p.adjust(p_degerleri, method = "hochberg")

İpucu

Varyanslar homojen değilse?

Keşifsel ve doğrulayıcı analizleri ayırmak

Not: Buradaki eşikler ve örnek değerler yol gösterici niteliktedir; yöntem seçimi çalışmanın tasarımına, test sayısına ve amacına (doğrulayıcı/keşifsel) göre kesinleştirilir.

Kullanılan kaynaklar

Curran-Everett D. Multiple comparisons: philosophies and illustrations. American Journal of Physiology - Regulatory, Integrative and Comparative Physiology. 2000;279(1):R1-R8. · DOI
Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 1995;57(1):289-300. · DOI

Çoklu Karşılaştırma Düzeltmeleri: Hangi Yöntem, Hangi Durumda?

Çoklu karşılaştırma problemi: kısa özet

Hangi durumda hangi yöntem?

ANOVA sonrası post-hoc: Tukey, Dunnett, Scheffé

Genel amaçlı düzeltmeler: Bonferroni, Holm, Hochberg

FDR: keşif amaçlı analizlerin çözümü

Non-parametrik post-hoc: Kruskal-Wallis sonrası

SPSS'te ne var, ne yok?

Varyanslar homojen değilse?

Keşifsel ve doğrulayıcı analizleri ayırmak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Bonferroni Düzeltmesi: Ne Zaman Yeterli, Ne Zaman Yetersiz?

Doğru İstatistik Testini Nasıl Seçersiniz?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Araştırmanız İçin Destek Alın

Çoklu Karşılaştırma Düzeltmeleri: Hangi Yöntem, Hangi Durumda?

Çoklu karşılaştırma problemi: kısa özet

Hangi durumda hangi yöntem?

ANOVA sonrası post-hoc: Tukey, Dunnett, Scheffé

Genel amaçlı düzeltmeler: Bonferroni, Holm, Hochberg

FDR: keşif amaçlı analizlerin çözümü

Non-parametrik post-hoc: Kruskal-Wallis sonrası

SPSS'te ne var, ne yok?

Varyanslar homojen değilse?

Keşifsel ve doğrulayıcı analizleri ayırmak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Bonferroni Düzeltmesi: Ne Zaman Yeterli, Ne Zaman Yetersiz?

Doğru İstatistik Testini Nasıl Seçersiniz?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Araştırmanız İçin Destek Alın