ANOVA anlamlı ama Bonferroni sonrası hiçbir çift anlamlı değil. Bu nasıl oluyor?

ANOVA genel bir fark olup olmadığını söyler, hangi gruplar arasında olduğunu söylemez. Post-hoc testler daha sıkı eşikler kullandığı için, özellikle küçük örneklemde veya çok sayıda grupta, ANOVA anlamlı çıksa bile hiçbir çift anlamlı çıkmayabilir. Bu genellikle güç yetersizliğine işaret eder. Etki büyüklüklerini kontrol etmekte fayda var; gerçek bir fark olup gücünüzün düşük olması mümkün.

Bonferroni ve Holm-Bonferroni arasındaki fark nedir?

Bonferroni tüm testler için tek bir eşik kullanır: alfa/k. Holm-Bonferroni ise p değerlerini sıralayıp her adımda farklı eşik uygular. Her iki yöntem de FWER'yi kontrol eder ama Holm sistematik olarak daha güçlüdür. Bonferroni'nin bir bulgu koruduğu durumda Holm iki bulgu koruyabilir. Eğer Bonferroni çok sıkı geliyorsa Holm-Bonferroni'yi tercih etmenizi öneriyoruz.

Planlı karşılaştırma için düzeltme gerçekten gerekmez mi?

Protokolünüzde veya SAP'ınızda belirtilmiş, sayısı az (2-3) ve teorik gerekçesi güçlü olan karşılaştırmalar için düzeltme genellikle gerekmez. Ama iki koşul var: birincisi, bunu veri toplamadan önce yazmış olmanız gerekir. İkincisi, sayının makul olması gerekir. 15 karşılaştırmanın hepsini planlı ilan etmek ikna edici olmaz.

SPSS'te Holm düzeltmesi nasıl yapılır?

SPSS menüsünde doğrudan Holm seçeneği yok. Ama post-hoc testlerin p değerlerini aldıktan sonra elle uygulayabilirsiniz: p değerlerini küçükten büyüğe sıralayın, en küçüğünü k ile, ikincisini k-1 ile çarpın. Çarpım sonucu 0.05'ten küçükse anlamlı. R kullanabiliyorsanız p.adjust(p_values, method='holm') tek satırda halleder.

İki bağımlı değişkenim var, ikisi için de test yaptım. Düzeltme gerekli mi?

Evet. İki ayrı test yapıyorsanız çoklu karşılaştırma problemi var. Bonferroni ile eşik 0.05/2 = 0.025 olur, bu makul bir sıkılaştırma. Alternatif olarak MANOVA kullanıp her iki bağımlı değişkeni birlikte analiz edebilirsiniz, bu durumda düzeltme gerekmez. Hangisinin uygun olduğu değişkenlerinizin ilişkisine bağlı.

Bonferroni düzeltmesi etki büyüklüğünü değiştirir mi?

Hayır. Bonferroni yalnızca alfa eşiğini veya p değerini değiştirir. Cohen's d, odds ratio veya güven aralığı tahmini düzeltmeden etkilenmez. Bu yüzden düzeltme sonrası anlamsız çıkan bir bulgu için bile etki büyüklüğünü raporlamak kritik. Klinik olarak anlamlı bir etki büyüklüğü ile istatistiksel anlamsızlık bir arada bulunabilir; bu genellikle yetersiz örnekleme işaret eder.

Alt grup analizlerinde düzeltme yapmadım, hakem eleştirdi. Nasıl yanıt vermeliyim?

Yanıtınızda hangi alt grupların primer (önceden planlanmış), hangilerinin keşifsel olduğunu netleştirmekte fayda var. Primer alt gruplara Bonferroni veya Holm uygulayın. Keşifsel gruplar için 'exploratory nitelikte olup dikkatle yorumlanmıştır' ifadesini kullanın. Tüm alt gruplar post-hoc ise düzeltme zorunlu.

Bonferroni Düzeltmesi: Ne Zaman Yeterli, Ne Zaman Değil?

Bonferroni düzeltmesini herkes bilir: dört grup arasında ANOVA yaptıktan sonra hakem "Bonferroni uygulanmamış" dediğinde, 0,05'i karşılaştırma sayısına bölersiniz ve daha önce anlamlı görünen farklar bir anda anlamsızlaşır. Ama Bonferroni'nin ne zaman yeterli olduğu, ne zaman gereğinden fazla muhafazakâr davrandığı ve alternatiflerinin ne olduğu çoğu zaman gözden kaçıyor. Armstrong'un (2014) hatırlattığı gibi, Bonferroni rutin bir refleks değil, koşullara bağlı bir tercih olmalı.

Bonferroni'nin mantığı: basit bir bölme

Carlo Emilio Bonferroni'nin eşitsizliğine dayanan yöntemin formülü kısa:

Düzeltilmiş alfa = alfa / k

Burada k, yaptığınız test sayısı. 6 karşılaştırma yapıyorsanız 0,05/6 = 0,0083; her karşılaştırmanın p değeri bu eşiğin altındaysa anlamlı, üstündeyse anlamsız. (Alternatif olarak p değerlerini k ile çarpıp 0,05 ile karşılaştırmak da aynı sonucu verir.) Bu basitlik Bonferroni'nin en büyük avantajı: elle hesaplanabilir, yazılım gerektirmez, t-testinden ki-kareye her test tipine uygulanabilir, varsayım istemez ve family-wise error rate'i (FWER) garantili kontrol eder. Ama basitliğin bir bedeli var.

Bonferroni neden acımasız?

6 karşılaştırmada eşik 0,0083 — kabul edilebilir. 10 karşılaştırmada 0,005, 20 karşılaştırmada 0,0025; artık p = 0,01 bile anlamlı sayılmıyor.

Test sayısı arttıkça eşik hızla küçülüyor; küçük örneklemde bu güç eritiyor.

Küçük örneklemli bir çalışmada 20 karşılaştırma yapıyorsanız, Bonferroni size pratikte "gerçek bir fark olsa bile bulamazsınız" diyor. Sorunun kökü şu: Bonferroni tüm testlerin birbirinden bağımsız olduğunu varsayar. Oysa ANOVA sonrası post-hoc karşılaştırmalar bağımsız değil — aynı veri setinden gelir, aynı standart hatayı paylaşırlar. Bu korelasyonu görmezden gelmek eşiği gereğinden fazla sıkıştırır.

Bonferroni: güçlü ve zayıf yanları

Bonferroni uygun

Bonferroni yetersiz

Bonferroni ne zaman gerçekten işe yarar?

Bir klinik çalışmada üç bağımsız hipotez test ettiğinizi düşünün: tedavi grubunda ağrı skoru düşüyor mu (t-testi), yan etki oranı farklı mı (ki-kare), hastanede kalış kısalıyor mu (Mann-Whitney). Üç ayrı test, birbirinden bağımsız değişkenler — bu durumda Bonferroni mükemmel çalışır: 0,05/3 = 0,017, basit ve savunulabilir. Armstrong'un (2014) önerdiği koşullara da uyar: az sayıda, önceden planlanmış, bağımsız test.

Ama ANOVA sonrası 6 grup çiftini karşılaştırıyorsanız durum farklı; testler aynı hata varyansını paylaştığından bağımsızlık geçersiz ve Bonferroni gereğinden fazla sıkı davranır. Burada Tukey HSD ya da Holm-Bonferroni çok daha mantıklı. Danışanlarımızda en sık gördüğümüz kalıp da bu: "ANOVA yaptım, post-hoc'ta Bonferroni seçtim, sonuçlar anlamsız çıktı." Oysa aynı veriyle Tukey HSD belki iki karşılaştırmayı anlamlı bırakacaktı.

Holm-Bonferroni: aynı güvenlik, daha az kayıp

Sture Holm 1979'da şunu fark etti: Bonferroni tüm testlere aynı sıkı eşiği uyguluyor, oysa p değerleri sıralandığında en küçüğe en sıkı eşiği, sonrakilere giderek gevşeyen eşikleri vermek mantıklı. Adımlar şöyle: p değerlerini küçükten büyüğe sıralarsınız, en küçüğü alfa/6 ile karşılaştırırsınız (Bonferroni ile aynı); anlamlıysa ikinciyi alfa/5, sonra alfa/4... ilk anlamsız çıkan noktada durursunuz ve gerisi anlamsızdır.

Aynı veride Bonferroni 1, Holm 2 bulgu koruyor; ikisi de FWER'yi 0,05 altında tutuyor.

Somut örnek: 6 karşılaştırma, p değerleri 0,003; 0,009; 0,015; 0,022; 0,041; 0,190. Bonferroni eşiği tüm testler için 0,0083 olduğundan yalnızca p = 0,003 anlamlı. Holm eşikleri ise 0,0083; 0,010; 0,0125; 0,0167; 0,025; 0,050: p = 0,003 anlamlı, p = 0,009 anlamlı (0,009 < 0,010), p = 0,015 anlamsız (0,015 > 0,0125) — burada durulur. Sonuç: Bonferroni bir, Holm iki bulgu korudu ve her iki yöntem de FWER'yi 0,05'in altında tuttu.

İpucu

Birçok istatistikçi artık şunu öneriyor: Bonferroni'nin kullanılacağı her yerde onun yerine Holm-Bonferroni tercih edilmeli. Holm, Bonferroni'nin yaptığı her şeyi yapar ama daha güçlüdür. SPSS menüsünde doğrudan sunulmuyor, p değerlerini aldıktan sonra elle uygulanabilir; R'da ise tek satır: p.adjust(p_degerleri, method = "holm").

Gerçek örnek: 4 tedavi grubu, 6 karşılaştırma

Randomize kontrollü bir çalışmada dört tedavi protokolünü karşılaştırıyorsunuz: 4 grup, 6 çiftli karşılaştırma, ANOVA F = 3,87, p = 0,011. Post-hoc sonuçlarından üçü şöyle: Grup A-B p = 0,038 (Cohen's d = 0,42), Grup A-D p = 0,007 (d = 0,68), Grup B-C p = 0,044 (d = 0,39). Bonferroni eşiği 0,05/6 = 0,0083 olduğundan yalnızca A-D anlamlı; Holm da (0,007 < 0,0083 anlamlı; 0,038 > 0,010 anlamsız) burada Bonferroni ile aynı sonucu veriyor.

Ama A-B'de Cohen's d = 0,42 — küçük-orta büyüklükte bir etki, istatistiksel olarak anlamsız çıksa bile klinik olarak görmezden gelinecek bir fark değil. Makaleye yazılması gereken şey şu: "Bonferroni düzeltmesi sonrası Grup A ile Grup D arasında istatistiksel olarak anlamlı fark saptanmıştır (p = 0,007; d = 0,68). Grup A ile Grup B arasındaki fark düzeltme sonrası anlamlılığını yitirmekle birlikte, orta büyüklükte bir etki gözlenmiştir (d = 0,42)." Bu cümle hakemin üç sorusuna aynı anda yanıt verir: düzeltme uyguladınız mı (evet), sonuç ne (A-D anlamlı), kalan farkları nasıl yorumluyorsunuz (etki büyüklüğü ile).

Bonferroni sonrası hepsi anlamsız çıktığında

ANOVA anlamlı ama düzeltme sonrası hiçbir çift anlamlı değil — sık görülen bir durum ve panik gerektirmiyor. Birkaç yol var. Önce Holm-Bonferroni veya Tukey HSD deneyin; Bonferroni çok sıkıysa bunlar bir-iki bulguyu kurtarabilir — ama "hangisi anlamlılığı koruyacak" diye tüm yöntemleri denemek p-hacking'dir, durumunuza en uygun yöntemi seçip sonuç ne olursa olsun raporlayın. İkincisi, etki büyüklüklerini mutlaka raporlayın: p anlamsız olsa bile Cohen's d = 0,6 varsa bu klinik olarak göz ardı edilemez. Üçüncüsü, asıl sorun düzeltme değil örneklem olabilir; güç analizi yapıp "bu etkiyi yakalamak için kaç kişi gerekir?" sorusunu tartışma bölümüne taşıyın. Dördüncüsü, bazı karşılaştırmalar protokolde planlı karşılaştırma olarak belirtildiyse bunlar için düzeltme gerekmediğini savunabilirsiniz — ama bu "veriyi gördükten sonra planlıydı" biçiminde olamaz; istatistik analiz planınız buna tanıklık etmeli.

Planlı karşılaştırma: düzeltmeden meşru kaçış

Çalışmaya başlamadan önce "Grup A ile Grup D arasındaki farka bakacağım, çünkü teorik gerekçem şu" diye yazdıysanız, bu planlı karşılaştırmadır; sayısı az (2-3) ve bilimsel gerekçesi güçlü olmalıdır. Planlı karşılaştırmalarda düzeltme genellikle gerekmez, ama savunmak için belge şart: protokol, etik kurul başvurusu, istatistik analiz planı. "Veri bitince bakayım hangisi ilginç" yaklaşımı planlı karşılaştırma değil, p-hacking.

Uyarı

ANOVA sonrası tüm ikili karşılaştırmaları "planlı" ilan etmek hakemleri ikna etmez. Planlı karşılaştırma, spesifik teorik veya klinik gerekçeye dayanan ve sayısı sınırlı olan karşılaştırmadır; 6 grup arasındaki 15 çiftin hepsini planlı saymak, düzeltmeden kaçınma girişimi olarak değerlendirilir.

Hakeme nasıl yanıt verilir?

"Çoklu karşılaştırma düzeltmesi uygulanmamış" diyen hakeme yanıt stratejisi birkaç adımdan oluşuyor. Önce uygun düzeltmeyi uygulayın (ANOVA post-hoc için genellikle en savunulabilir seçim Tukey HSD, bağımsız hipotezler için Holm-Bonferroni) ve sonuçları tabloya ekleyin. Sonra düzeltme öncesi ve sonrasını karşılaştırıp değişen sonuçların nedenini açıklayın: "Sınırlı örneklem nedeniyle düzeltme sonrası istatistiksel anlamlılık yitirilmiş, ancak etki büyüklükleri klinik olarak anlamlı düzeyde korunmuştur." p değeri anlamsız çıksa bile etki büyüklüğü güçlü bir argüman; her karşılaştırma için Cohen's d veya odds ratio ile %95 güven aralığını raporlayın. Son olarak hangi düzeltmeyi neden seçtiğinizi literatür referansıyla belirtin. Sakın "hangi düzeltme anlamlılığı koruyor" diye denemeler yapmayın — durumunuza en uygun yöntemi seçip sonucu olduğu gibi raporlayın.

Alt grup analizleri: unutulan tuzak

Çoklu karşılaştırma problemi yalnızca post-hoc testlerde değil. Üç yaş grubuna, iki cinsiyete, dört komorbidite durumuna göre alt grup analizi yaptıysanız bunların her biri ayrı bir testtir: 5 alt grup × 3 sonuç değişkeni = 15 test, ve düzeltme olmadan bunlardan en az birinde yanlış pozitif bulma olasılığı %54 (1 − 0,95¹⁵). Hakemler bunu fark eder; etmese bile alt grup analizlerinde düzeltme bir bilimsel sorumluluktur. Pratik yaklaşım: alt gruplarınızı "birincil" (protokolde tanımlı, klinik gerekçeli — Bonferroni yeterli) ve "keşifsel" (exploratory olduğu belirtilip FDR uygulanan) olarak ayırın. Yöntem seçim haritasının tamamı için çoklu karşılaştırma düzeltmeleri yazımıza bakabilirsiniz.

Model İstatistik olarak çoklu karşılaştırma stratejisini çalışmanın tasarım aşamasında, veri toplamadan önce belirlemeyi öneriyoruz; düzeltme yönteminiz ne olursa olsun etki büyüklüğünü raporlayın, çünkü p düzeltmeyle değişir ama Cohen's d değişmez.

Not: Buradaki p değerleri ve etki büyüklükleri kavramı göstermek için seçilmiş örneklerdir; yöntem ve eşik seçimi çalışmanın tasarımına ve test sayısına göre kesinleştirilir.

Kullanılan kaynaklar

Armstrong RA. When to use the Bonferroni correction. Ophthalmic & Physiological Optics. 2014;34(5):502-508. · DOI
Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics. 1979;6(2):65-70.

Bonferroni'nin mantığı: basit bir bölme

Carlo Emilio Bonferroni'nin eşitsizliğine dayanan yöntemin formülü kısa:

Düzeltilmiş alfa = alfa / k

Bonferroni neden acımasız?

6 karşılaştırmada eşik 0,0083 — kabul edilebilir. 10 karşılaştırmada 0,005, 20 karşılaştırmada 0,0025; artık p = 0,01 bile anlamlı sayılmıyor.

Test sayısı arttıkça eşik hızla küçülüyor; küçük örneklemde bu güç eritiyor.

Bonferroni: güçlü ve zayıf yanları

Bonferroni uygun

Bonferroni yetersiz

Not: Buradaki p değerleri ve etki büyüklükleri kavramı göstermek için seçilmiş örneklerdir; yöntem ve eşik seçimi çalışmanın tasarımına ve test sayısına göre kesinleştirilir.

Kullanılan kaynaklar

Armstrong RA. When to use the Bonferroni correction. Ophthalmic & Physiological Optics. 2014;34(5):502-508. · DOI
Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics. 1979;6(2):65-70.

Bonferroni Düzeltmesi: Ne Zaman Yeterli, Ne Zaman Yetersiz?

Bonferroni'nin mantığı: basit bir bölme

Bonferroni neden acımasız?

Bonferroni: güçlü ve zayıf yanları

Bonferroni ne zaman gerçekten işe yarar?

Holm-Bonferroni: aynı güvenlik, daha az kayıp

Gerçek örnek: 4 tedavi grubu, 6 karşılaştırma

Bonferroni sonrası hepsi anlamsız çıktığında

Planlı karşılaştırma: düzeltmeden meşru kaçış

Hakeme nasıl yanıt verilir?

Alt grup analizleri: unutulan tuzak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Çoklu Karşılaştırma Düzeltmeleri: Hangi Yöntem, Hangi Durumda?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Güç Analizi Neden Gerekli ve Kimler İstiyor?

Araştırmanız İçin Destek Alın

Bonferroni Düzeltmesi: Ne Zaman Yeterli, Ne Zaman Yetersiz?

Bonferroni'nin mantığı: basit bir bölme

Bonferroni neden acımasız?

Bonferroni: güçlü ve zayıf yanları

Bonferroni ne zaman gerçekten işe yarar?

Holm-Bonferroni: aynı güvenlik, daha az kayıp

Gerçek örnek: 4 tedavi grubu, 6 karşılaştırma

Bonferroni sonrası hepsi anlamsız çıktığında

Planlı karşılaştırma: düzeltmeden meşru kaçış

Hakeme nasıl yanıt verilir?

Alt grup analizleri: unutulan tuzak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Çoklu Karşılaştırma Düzeltmeleri: Hangi Yöntem, Hangi Durumda?

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Güç Analizi Neden Gerekli ve Kimler İstiyor?

Araştırmanız İçin Destek Alın