Dört grup arasında ANOVA yaptınız. F istatistiği anlamlı. Hakem mektubu geldi: "Bonferroni düzeltmesi uygulanmamış." Tamam, uyguladınız. 0.05'i 6'ya böldünüz, eşik 0.0083 oldu. Daha önce p=0.02 olan üç karşılaştırmanın üçü de anlamsız hale geldi.
Şimdi ne yapacaksınız?
Bu soruyla karşılaşan araştırmacı sayısı düşündüğünüzden çok daha fazla. Bonferroni'nin ne olduğunu herkes bilir. Ama ne zaman yeterli olduğunu, ne zaman gereğinden fazla muhafazakar davrandığını ve asıl önemlisi alternatiflerinin ne olduğunu pek az kişi bilir.
Bonferroni'nin mantığı: basit bir bölme işlemi
Carlo Emilio Bonferroni'nin eşitsizliğine dayanan bu yöntemin formülü şu kadar kısa:
Düzeltilmiş alfa = alfa / k
Burada k, yaptığınız test sayısı. 6 karşılaştırma yapıyorsanız 0.05/6 = 0.0083. Her bir karşılaştırmanın p değeri bu eşiğin altında mı? Anlamlı. Üstünde mi? Anlamsız.
Alternatif yol: p değerlerini k ile çarpıp 0.05 ile karşılaştırmak. Aynı sonucu verir.
Bu basitlik, Bonferroni'nin en büyük avantajı. Elle hesaplanabilir. Herhangi bir yazılım gerektirmez. t-testinden ki-kareye, korelasyondan regresyona kadar her test tipine uygulanabilir. Varsayım gerektirmez. Family-wise error rate'i (FWER) garantili olarak kontrol altında tutar.
Ama basitlik bedava değil.
Bonferroni neden acımasız?
6 karşılaştırmada eşik 0.0083. Kabul edilebilir. 10 karşılaştırmada 0.005. Sıkışmaya başladınız. 20 karşılaştırmada 0.0025. Artık p=0.01 bile anlamlı sayılmıyor.
Küçük örneklemli bir klinik çalışmada 20 karşılaştırma yapıyorsanız, Bonferroni size pratikte "hiçbir şey bulamazsınız" diyor. Gerçek bir fark olsa bile.
Sorunun kökü şu: Bonferroni tüm testlerin birbirinden bağımsız olduğunu varsayar. Oysa ANOVA sonrası post-hoc karşılaştırmalarda testler bağımsız değil. Aynı veri setinden geliyorlar, aynı standart hatayı paylaşıyorlar. Bu korelasyonu görmezden gelmek, eşiği gereğinden fazla sıkıştırır.
Bonferroni: Güçlü ve Zayıf Yanları
Bonferroni Uygun
Bonferroni Yetersiz
Bonferroni ne zaman gerçekten işe yarar?
Şu senaryoyu düşünelim. Bir klinik çalışmada üç bağımsız hipotez test ediyorsunuz: tedavi grubunda ağrı skoru düşüyor mu (t-testi), yan etki oranı farklı mı (ki-kare), hastanede kalış süresi kısalıyor mu (Mann-Whitney). Üç ayrı test, birbirinden bağımsız değişkenler.
Bu durumda Bonferroni mükemmel çalışır. 0.05/3 = 0.017. Basit, açık, savunulabilir. Hakem de memnun olur.
Ama ANOVA sonrası 6 grup çiftini karşılaştırıyorsanız durum farklı. Testler aynı hata varyansını paylaşıyor, bağımsızlık varsayımı geçerli değil. Bonferroni çalışır ama gereğinden fazla sıkı davranır. Burada Tukey HSD veya Holm-Bonferroni çok daha mantıklı.
Peki Bonferroni'yi neden herkes kullanıyor? Çünkü basit. Ve çünkü SPSS'te en bilinen seçenek. Danışanlarımızda gördüğümüz en yaygın kalıp bu: "ANOVA yaptım, post-hoc'ta Bonferroni seçtim, sonuçlar anlamsız çıktı." Oysa aynı veriyle Tukey HSD yapsa belki iki karşılaştırma anlamlı kalacaktı.
Holm-Bonferroni: Aynı güvenlik, daha az kayıp
Sture Holm 1979'da bir şey fark etti. Bonferroni tüm testlere aynı sıkı eşiği uyguluyor. Ama p değerleri sıralandığında, en küçük p değerine en sıkı eşiği, ikinciye biraz daha gevşeğini, üçüncüye daha da gevşeğini vermek mantıklı.
Adımlar şöyle. 6 karşılaştırma yaptığınızı düşünelim. p değerlerini küçükten büyüğe sıralıyorsunuz. En küçük p değerini alfa/6 ile karşılaştırıyorsunuz (Bonferroni ile aynı). Anlamlıysa, ikinci p değerini alfa/5 ile karşılaştırıyorsunuz. Sonra alfa/4, alfa/3... İlk anlamsız çıkan noktada duruyorsunuz, geri kalan hepsi anlamsız.
Somut bir örnek. 6 karşılaştırma, p değerleri: 0.003, 0.009, 0.015, 0.022, 0.041, 0.190.
Bonferroni eşiği tüm testler için 0.0083. Sadece p=0.003 anlamlı. Diğer beşi anlamsız.
Holm eşikleri: 0.0083, 0.010, 0.0125, 0.0167, 0.025, 0.050. p=0.003 anlamlı, p=0.009 anlamlı (0.009 < 0.010), p=0.015 anlamsız (0.015 > 0.0125) — burada dur.
Sonuç: Bonferroni bir bulgu korudu. Holm iki bulgu korudu. Her iki yöntem de FWER'yi 0.05'in altında tutuyor.
İpucu
Birçok istatistikçi artık şunu söylüyor: Bonferroni'nin kullanılacağı her yerde yerine Holm-Bonferroni tercih edilmeli. Holm, Bonferroni'nin yaptığı her şeyi yapar ama daha güçlü. SPSS menüsünde doğrudan sunulmuyor, ama p değerlerini aldıktan sonra elle uygulanabilir. R'da ise tek satır: p.adjust(p_values, method = "holm").
Gerçek örnek: 4 tedavi grubu, 6 karşılaştırma
Bir randomize kontrollü çalışmada dört farklı tedavi protokolünü karşılaştırıyorsunuz. 4 grup, toplam 6 çiftli karşılaştırma. ANOVA F=3.87, p=0.011. Gruplar arası fark var.
Post-hoc sonuçları:
- Grup A vs B: p=0.038, Cohen's d=0.42
- Grup A vs D: p=0.007, Cohen's d=0.68
- Grup B vs C: p=0.044, Cohen's d=0.39
Bonferroni eşiği: 0.05/6 = 0.0083. Sadece A vs D anlamlı.
Holm eşikleri: 0.0083, 0.010, 0.0125... A vs D anlamlı (0.007 < 0.0083). A vs B? 0.038 > 0.010 — anlamsız. Holm da burada Bonferroni ile aynı sonucu verdi.
Ama bakın, A vs B'de Cohen's d=0.42. Bu küçük-orta büyüklükte bir etki. İstatistiksel olarak anlamsız çıksa bile klinik olarak görmezden gelinecek bir fark değil. Makaleye yazmanız gereken şey:
"Bonferroni düzeltmesi sonrası Grup A ile Grup D arasında istatistiksel olarak anlamlı fark saptanmıştır (p=0.007, d=0.68). Grup A ile Grup B arasındaki fark düzeltme sonrası anlamlılığını yitirmiş olmakla birlikte, orta büyüklükte bir etki gözlenmiştir (d=0.42)."
Bu cümle, hakemin üç sorusuna aynı anda cevap verir: düzeltme uyguladınız mı (evet), sonuç ne oldu (A vs D anlamlı), kalan farkları nasıl yorumluyorsunuz (etki büyüklüğü ile).
Bonferroni sonrası hepsi anlamsız çıktığında
Bu durumu sık görüyoruz. ANOVA anlamlı, ama düzeltme sonrası hiçbir çift anlamlı değil. Panik yapmayın.
Birkaç yol var.
Birincisi, Holm-Bonferroni veya Tukey HSD deneyin. Bonferroni çok sıkıysa bu yöntemler bir-iki bulguyu kurtarabilir. Ama "hangisi anlamlılığı koruyacak" diye tüm yöntemleri denemek p-hacking'dir. Durumunuza en uygun yöntemi seçin ve sonuç ne olursa olsun raporlayın.
İkincisi, etki büyüklüklerini mutlaka raporlayın. p değeri anlamsız olsa bile Cohen's d = 0.6 varsa, bu klinik olarak göz ardı edilemez.
Üçüncüsü, asıl sorun düzeltme değil örneklem olabilir. Güç analizi yapıp "bu etkiyi yakalamak için kaç kişi gerekir?" sorusunu cevaplayın ve tartışma bölümüne yazın.
Dördüncüsü, eğer bazı karşılaştırmalar çalışma öncesi protokolünüzde planlı karşılaştırma olarak belirtilmişse, bunlar için düzeltme gerekmediğini savunabilirsiniz. Ama bu "veriyi gördükten sonra planlıydı dedim" şeklinde olmamalı. Protokoldeki SAP'ınız buna tanıklık etmeli.
Planlı karşılaştırma: düzeltmeden kaçışın meşru yolu
Eğer çalışmanıza başlamadan önce "Grup A ile Grup D arasındaki farka bakacağım, çünkü teorik gerekçem şu" diye yazmışsanız, bu planlı karşılaştırmadır. Sayısı az olmalı (2-3 tane) ve bilimsel gerekçesi güçlü olmalı.
Planlı karşılaştırmalar için düzeltme genellikle gerekmez. Ama bunu savunmak için elinizde belge olmalı: protokol, etik kurul başvurusu, istatistik analiz planı. "Veri toplama bitince bakayım hangisi ilginç" yaklaşımı planlı karşılaştırma değil, p-hacking.
Uyarı
ANOVA sonrası tüm ikili karşılaştırmaları "planlı" ilan etmek, hakemleri ikna etmez. Planlı karşılaştırma, spesifik teorik veya klinik gerekçeye dayanan ve sayısı sınırlı olan karşılaştırmadır. 6 grup arasındaki 15 çiftin hepsini planlı saymak, düzeltmeden kaçınma girişimi olarak değerlendirilir.
Hakeme nasıl yanıt verilir?
"Çoklu karşılaştırma düzeltmesi uygulanmamış" diyen hakeme yanıt stratejisi:
Önce uygun düzeltmeyi uygulayın. ANOVA post-hoc için Tukey HSD genellikle en savunulabilir seçim. Bağımsız hipotezler için Holm-Bonferroni. Sonuçları tabloya ekleyin.
Sonra düzeltme öncesi ve sonrasını karşılaştırın. Değişen sonuçlar varsa nedenini açıklayın. "Sınırlı örneklem büyüklüğü nedeniyle düzeltme sonrası istatistiksel anlamlılık yitirilmiştir; ancak etki büyüklükleri klinik olarak anlamlı düzeyde korunmuştur."
p değeri anlamsız çıksa bile etki büyüklüğü güçlü bir argümandır. Her karşılaştırma için Cohen's d veya odds ratio ile birlikte %95 güven aralığını raporlayın.
Son olarak, hangi düzeltmeyi neden seçtiğinizi literatür referansıyla yazın. "ANOVA sonrası tüm çiftli karşılaştırmalar için Tukey HSD yöntemi uygulanmıştır (Kutner et al., 2004)" gibi tek bir cümle yeterli.
Sakın "hangi düzeltme anlamlılığı koruyor" diye denemeler yapmayın. Durumunuza en uygun yöntemi seçin, sonuç ne olursa olsun raporlayın.
Alt grup analizleri: unutulan tuzak
Çoklu karşılaştırma problemi sadece post-hoc testlerde değil. Üç yaş grubuna göre alt grup analizi yaptıysanız, iki cinsiyete göre baktıysanız, dört komorbidite varlığına göre incelediyseniz — bunların her biri ayrı bir test. 5 alt grup x 3 sonuç değişkeni = 15 test. Düzeltme olmadan bu testlerden en az birinde yanlış pozitif bulma olasılığı %54.
Hakemler bunu fark eder. Fark etmezlerse bile çoklu karşılaştırma düzeltmeleri konusundaki genel rehberimizde açıkladığımız gibi, alt grup analizlerinde düzeltme bilimsel sorumluluktur.
Pratik yaklaşım: alt grup analizlerinizi "birincil" ve "keşifsel" olarak ayırın. Birincil alt gruplar (protokolde tanımlanan, klinik gerekçesi olan) için Bonferroni yeterli. Keşifsel alt gruplar için "exploratory" olduğunu ve FDR düzeltmesi uyguladığınızı belirtin.
Model İstatistik olarak çoklu karşılaştırma stratejisini çalışmanın tasarım aşamasında, veri toplamadan önce belirlemenizi öneriyoruz. Veri toplandıktan sonra "hangi düzeltmeyi uygulasam" diye düşünmek, hem bilimsel açıdan hem de hakem sürecinde zayıf bir konum.
Düzeltme yönteminiz ne olursa olsun, etki büyüklüğünü raporlayın. p değeri düzeltmeyle değişir ama Cohen's d değişmez.