Makaleniz hakem değerlendirmesinden döndü. p değeri 0.08 çıkmış. Anlamlı değil ama "sınırda." Ne yapmalı?
Kafanızda bir ses: "Belki örneklemim yetersizdi? Belki güç analizi yapsam, bunu gösterebilirim?"
Hemen G*Power'ı açıyorsunuz. Gözlenen etki büyüklüğünü giriyorsunuz. Çıkan sonuç: güç %45. Harika! Şimdi discussion'a şunu yazabilirsiniz:
"Çalışmamızın istatistiksel gücü düşüktür (%45). Bu nedenle Tip II hata riski yüksektir. Daha büyük örneklemle çalışmanın tekrarlanması önerilir."
Hakem yanıtını okuyorsunuz: "Post-hoc güç analizi istatistiksel olarak anlamsızdır. Red."
Ne oldu?
Post-hoc Güç Analizi Nedir?
Post-hoc güç analizi, veri toplandıktan sonra, yani sonuçlar elde edildikten sonra yapılan güç hesaplaması.
Genellikle şu senaryoda karşımıza çıkıyor:
- p değeri > 0.05 (anlamsız sonuç)
- "Acaba örneklemim az mıydı?"
- Gözlenen etki büyüklüğü ile güç hesabı yapılıyor
- Çıkan güç düşük (örn. %50)
- Sonuç: "Örneklem yetersizdi, o yüzden anlamlı çıkmadı"
Kulağa mantıklı geliyor, değil mi?
Değil.
Neden Yanlış?
Post-hoc güç analizi, p değeriyle matematiksel olarak birebir ilişkili. Yani zaten p değerinden farklı bir bilgi vermiyor.
Matematiksel Gerçek
p > 0.05 ise post-hoc güç her zaman düşük çıkıyor. p < 0.05 ise post-hoc güç her zaman yüksek çıkıyor.
Şöyle düşünmek işe yarıyor:
p değeri = 0.08 → Güç ~%40-50 p değeri = 0.02 → Güç ~%80-90
Post-hoc güç hesabı, p değerinin başka bir versiyonunu veriyor, o kadar.
Uyarı
Post-hoc güç analizi, p değerinden bağımsız yeni bir bilgi sağlamıyor. Sadece zaten bilinen şeyi başka bir formatta tekrar ediyor.
Gerçek Veri ile Örnek
İki çalışma düşünelim:
Her iki çalışmada da etki büyüklüğü neredeyse aynı (3.2 vs 3.1). Ama biri anlamsız, diğeri anlamlı. Post-hoc güç de buna paralel değişiyor.
Post-hoc güç şunu söylüyor: "Evet, anlamlı değil." Ama bunu zaten p değerinden biliyordunuz.
"Observed Power" Ne Anlama Geliyor?
SPSS çıktılarında "Observed Power" sütununu görmek çok sıradan bir durum. Bu, post-hoc güç demek.
SPSS bunu varsayılan olarak gösteriyor, ama kullanılması gerektiği anlamına gelmiyor.
2001 yılında Hoenig ve Heisey adlı iki istatistikçi, "The Abuse of Power" başlıklı bir makale yayımladı. Özet: post-hoc güç analizi yapanları eleştirmek için bir manifesto.
Makalede şu cümle var:
"Post-hoc güç analizi, p değerinin başka bir temsilidir ve hiçbir ek bilgi sağlamaz."
O zamandan beri birçok dergi, post-hoc güç analizi içeren makaleleri kabul etmiyor.
"Neden Anlamlı Çıkmadı?" Sorusuna Doğru Cevap
Anlamlı sonuç çıkmadıysa, 3 olasılık var:
1. Gerçekten bir etki yok Belki ilaç işe yaramıyordur. Belki gruplar arasında fark yoktur. Bu kötü bir şey değil, bilimsel bir bulgu.
2. Etki var ama örneklem küçük Bu durumda güven aralığına bakmak aydınlatıcı. Geniş bir güven aralığı (örn. -5 ile +15 arasında), örneklem yetersizliğine işaret ediyor.
3. Etki var ama çalışma tasarımı zayıf Ölçüm hatası, confounding, kayıp veri gibi sorunlar etkiyi maskeleyebilir.
Güven Aralığı Post-hoc Güçten Neden Daha İyi?
Güven aralığı şunları gösteriyor:
- Etki ne kadar olabilir? (nokta tahmini)
- Ne kadar belirsizlik var? (aralık genişliği)
- Klinik olarak anlamlı bir etki hâlâ mümkün mü?
Örnek:
Çalışma 1: Fark = 5 mg/dL, %95 GA: [-2, 12], p = 0.15 Çalışma 2: Fark = 5 mg/dL, %95 GA: [3, 7], p = 0.001
Her ikisinde de nokta tahmini aynı. Ama Çalışma 1'de belirsizlik çok fazla. Çalışma 2'de ise etki net.
Post-hoc güç sadece "anlamlı değil" diyor. Güven aralığı ise "etki -2 ile 12 arasında olabilir, yani belirsizlik yüksek" diyor.
p değeri anlamsız çıktığında ne yapılacağına dair rehberimiz bu konuda daha ayrıntılı bir perspektif sunuyor.
Hakemler Neden Post-hoc Güç Analizi İstiyor?
Bazı hakemler hâlâ eski alışkanlıklarla "güç analizi ekleyin" diyor.
Böyle bir durumda şu yanıt işe yarıyor:
"Post-hoc güç analizi istatistiksel olarak anlamsızdır (Hoenig & Heisey, 2001). Bunun yerine güven aralıklarını raporladık. Geniş güven aralığı, örneklem yetersizliğini zaten göstermektedir."
Hakem ısrar ederse:
"A priori güç analizi yapmıştık. Beklenen etki büyüklüğü d=0.5 idi, buna göre 64 kişi topladık. Ancak gözlenen etki d=0.3 çıktı. Bu, örneklem yetersizliği değil, etkinin beklediğimizden küçük olması anlamına gelir."
A Priori Güç Analizi Neden Farklı?
A priori güç analizi, veri toplamadan önce yapılıyor. Şu soruya yanıt veriyor:
"Belirli bir etkiyi görmek istiyorsam, kaç kişiye ihtiyacım var?"
Bu mantıklı çünkü:
- Henüz veri toplanmamış, dolayısıyla p değerinden etkilenme söz konusu değil
- Literatürden ya da pilot çalışmadan beklenen etki büyüklüğü tahmin ediliyor
- Çalışmanın yapılabilir olup olmadığı değerlendiriliyor
Güç analizi nedir yazımızda bu kavramı daha yakından incelemiştik.
Anlamlı Sonuç Çıkmadığında Ne İşe Yarıyor?
1. Güven aralığı raporlamak "Fark 3.2 mg/dL (%95 GA: -1.8, 8.2) olarak bulundu." Bu, hem etkinin ne olabileceğini hem de belirsizliği gösteriyor.
2. Klinik anlamlılığı tartışmak "Güven aralığının üst sınırı (8.2 mg/dL), klinik olarak anlamlı kabul edilen 10 mg/dL seviyesinin altındadır. Dolayısıyla etki olsa bile küçüktür."
3. A priori güç analizini hatırlatmak "Çalışma, d=0.5 için %80 güçle tasarlandı. Gözlenen etki bunun altında kaldı."
4. Limitasyonları açıkça belirtmek "Örneklem büyüklüğü, küçük-orta etkiler için yeterli güç sağlamayabilir. Daha büyük örneklemle replikasyon önerilir."
İpucu
Altın kural: post-hoc güç analizi yerine güven aralığı raporlamak çok daha bilgilendirici. Güven aralığı, hem etkinin büyüklüğünü hem de belirsizliği tek bir formatta gösteriyor.
Ne Zaman Güç Analizi Yapılır?
| Zaman | Güç Analizi Tipi | Geçerli mi? |
|---|---|---|
| Veri toplamadan önce | A priori güç analizi | ✅ Evet, şart |
| Veri toplandıktan sonra | Post-hoc güç analizi | ❌ Hayır, anlamsız |
| Bir sonraki çalışma için | Gözlenen etkiye dayalı planlama | ⚠️ Dikkatli kullanılırsa evet |
Mevcut çalışmadan bir sonraki çalışmayı planlıyorsanız, gözlenen etki büyüklüğünü kullanabilirsiniz. Ama bu yeni bir a priori analiz olacaktır, post-hoc değil.
Gerçek Hayattan Örnekler
Yanlış Kullanım:
"p = 0.12 bulundu. Post-hoc güç analizi %48 çıktı. Örneklem yetersizliği nedeniyle anlamlı sonuç elde edilemedi."
Doğru Kullanım:
"p = 0.12 bulundu (%95 GA: -1.2, 9.8). Güven aralığının genişliği, küçük-orta etkiler için örneklem yetersizliğini göstermektedir. Daha büyük örneklemle replikasyon önerilir."
Daha İyi Kullanım:
"Çalışma, literatüre dayalı d=0.5 için %80 güçle tasarlandı. Ancak gözlenen etki d=0.28 olup beklentinin altındadır. Bu, örneklem yetersizliğinden ziyade etkinin beklediğimizden küçük olduğunu gösterir."
Sonuç Yerine
Post-hoc güç analizi, istatistiksel olarak anlamsız. p değerinden farklı bir bilgi vermiyor.
Anlamlı sonuç çıkmadıysa güven aralığını raporlamak, a priori güç analizini hatırlatmak, limitasyonları açıkça yazmak ve gelecek çalışmalar için öneri sunmak çok daha değerli bir yol.
Güç analizi, veri toplamadan önce yapıldığında anlamlı. Veri toplandıktan sonra yapılan "güç analizi" aslında p değerinin başka bir versiyonu.
Hakemler post-hoc güç analizi isterse, nazikçe ama kararlıca itiraz etmekte fayda var. Literatür bu konuda oldukça net. Model İstatistik CRO ekibi olarak güç analizi planlamasında araştırmacının yanında duruyoruz — önemli olan doğru zamanda, doğru yöntemle hesaplama yapmak.