SPSS'teki 'Observed Power' sütununu kullanabilir miyim?

Hayır. SPSS bu sütunu varsayılan olarak gösteriyor ama post-hoc güç analizi anlamsız. Bu sütunu görmezden gelmek veya SPSS ayarlarından kapatmak daha doğru bir yaklaşım.

Hakem post-hoc güç analizi isterse ne denir?

Nazikçe itiraz etmek işe yarıyor: 'Post-hoc güç analizi istatistiksel olarak geçersizdir (Hoenig & Heisey, 2001). Güven aralıkları zaten örneklem yeterliliğini göstermektedir.' Literatür referansı vermek güçlü bir argüman oluşturuyor.

Gözlenen etkiyi bir sonraki çalışmada kullanabilir miyim?

Evet, ama bu yeni bir a priori analiz olacak, post-hoc değil. Mevcut çalışmanın etkisi, gelecek çalışma için planlama aşamasında referans olarak kullanılabiliyor.

Güven aralığı post-hoc güçten nasıl daha iyi?

Güven aralığı, hem etkinin büyüklüğünü hem de belirsizliği gösteriyor. Post-hoc güç ise sadece p değerinin başka bir temsili — yeni bilgi vermiyor.

Post-hoc güç neden her zaman p değeriyle aynı yönde?

Çünkü post-hoc güç hesabı gözlenen etki büyüklüğü ile yapılıyor. Gözlenen etki küçükse p yüksek, güç düşük çıkıyor. Etki büyükse p düşük, güç yüksek çıkıyor. Matematiksel olarak birebir ilişkili.

A priori güç analizi yapmamıştım, şimdi ne yapılabilir?

Discussion'da limitasyon olarak belirtmek en doğru yaklaşım: 'A priori güç analizi yapılmadı, bu çalışmanın bir kısıtıdır.' Gelecek çalışmalar için planlama yapmak işe yarıyor. Ama post-hoc güç analizi yapmamak çok daha sağlıklı.

Hangi durumlarda post-hoc güç analizi yapılabilir?

Hiçbirinde. Post-hoc güç analizi istatistiksel olarak anlamsız ve hiçbir durumda bilgilendirici bir çıktı sunmuyor. Bunun yerine güven aralıkları ve a priori planlamayı raporlamak çok daha değerli.

Post-hoc Güç Analizi Neden Anlamsız?

Anlamsız çıkan bir sonucun ardından akla gelen kurtarıcı fikirlerden biri şu oluyor: "Belki örneklemim yetersizdi; gözlenen etkiyle bir güç analizi yapıp bunu gösterebilirim." Gözlenen etki büyüklüğü G*Power'a giriliyor, düşük bir güç değeri (örneğin %45) çıkıyor ve tartışma bölümüne "çalışmamızın gücü düşüktü, replikasyon önerilir" cümlesi yazılıyor.

Ne var ki birçok dergi bu yaklaşımı doğrudan reddediyor. Nedeni basit: post-hoc güç, p değerinin yeniden paketlenmiş hâlinden başka bir şey değil.

Post-hoc güç analizi nedir?

Post-hoc güç analizi, veri toplandıktan sonra — yani sonuçlar elde edildikten sonra — yapılan güç hesaplaması. Genellikle şu senaryoda karşımıza çıkıyor: p değeri 0,05'in üzerinde (anlamsız) çıkar, "acaba örneklemim az mıydı?" sorusu doğar, gözlenen etki büyüklüğüyle güç hesaplanır, çıkan değer düşüktür ve "örneklem yetersizdi, o yüzden anlamlı çıkmadı" sonucuna varılır.

Kulağa mantıklı geliyor ama bu akıl yürütme yanlış.

Neden yanlış bir yöntem?

Post-hoc güç, gözlenen p değeriyle matematiksel olarak birebir ilişkili; dolayısıyla p'den farklı bir bilgi taşımıyor.

Matematiksel gerçek: p ile birebir bağ

Gözlenen güç, gözlenen p değerinin azalan bir fonksiyonu. Kritik çıpa şu: iki yönlü bir testte p tam olarak α'ya (0,05) eşitse, gözlenen güç tam %50 çıkar. p küçüldükçe gözlenen güç artıyor ama yavaş: p = 0,02'de yaklaşık %64, %80 gözlenen güce ise ancak p ≈ 0,005 dolayında ulaşılıyor. p büyüdükçe güç düşüyor: p = 0,20'de yaklaşık %26.

Gözlenen güç, p değerinin doğrudan bir dönüşümü; p = 0,05'te tam %50'de sabitleniyor.

Yani post-hoc güç, p değerinden bağımsız yeni bir bilgi vermiyor; aynı şeyi farklı bir ölçekte tekrarlıyor.

Uyarı

Post-hoc güç analizi, p değerinden bağımsız yeni bir bilgi sağlamıyor. Zaten bilinen şeyi başka bir formatta yeniden ifade ediyor; bu yüzden "gücümüz düşüktü" savunması, "p anlamlı çıkmadı" ifadesinin döngüsel bir tekrarından ibaret.

İki çalışma örneği

Her iki çalışmada da etki büyüklüğü neredeyse aynı (3,2 ile 3,1). Ama biri anlamsız, diğeri anlamlı; gözlenen güç de buna paralel değişiyor. Post-hoc güç yalnızca "anlamlı değil" diyor — bunu zaten p değerinden biliyordunuz.

SPSS'teki "Observed Power" ne anlama geliyor?

SPSS çıktılarında "Observed Power" (gözlenen güç) sütununu görmek sıradan bir durum; bu, post-hoc güç demek. SPSS bunu varsayılan olarak gösteriyor ama gösterilmesi kullanılması gerektiği anlamına gelmiyor.

2001'de Hoenig ve Heisey, "The Abuse of Power" başlıklı makalesinde bu uygulamayı ayrıntılı biçimde eleştirdi. Çalışmanın özü: gözlenen güç, gözlenen p değerinin bir dönüşümüdür ve veri analizine hiçbir ek bilgi katmaz (Hoenig & Heisey, 2001). O zamandan beri birçok dergi, post-hoc güç analizi içeren makaleleri kabul etmiyor.

"Neden anlamlı çıkmadı?" sorusunun doğru cevabı ne?

Anlamlı sonuç çıkmadıysa üç olasılık var.

1. Gerçekten bir etki yok. Belki ilaç işe yaramıyordur, belki gruplar arasında fark yoktur. Bu kötü bir şey değil, bilimsel bir bulgu.

2. Etki var ama örneklem küçük. Bu durumda güven aralığına bakmak aydınlatıcı; geniş bir güven aralığı (örneğin −5 ile +15 arası) örneklem yetersizliğine işaret ediyor.

3. Etki var ama çalışma tasarımı zayıf. Ölçüm hatası, karıştırıcı (confounding) ve kayıp veri gibi sorunlar etkiyi maskeleyebilir.

Güven aralığı post-hoc güçten neden daha iyi?

Güven aralığı üç soruyu birden yanıtlıyor: etki ne kadar olabilir (nokta tahmini), ne kadar belirsizlik var (aralık genişliği) ve klinik olarak anlamlı bir etki hâlâ mümkün mü?

Nokta tahmini aynı olsa bile aralığın genişliği belirsizliğin gerçek ölçüsünü veriyor.

Aynı örnek üzerinden: iki çalışmada da fark 5 mg/dL, ama Çalışma 1'de %95 GA [−2, 12] (p = 0,15) belirsizlik yüksek; Çalışma 2'de %95 GA [3, 7] (p = 0,001) etki net. Post-hoc güç yalnızca "anlamlı değil" derken, güven aralığı "etki −2 ile 12 arasında olabilir" diyerek belirsizliğin ölçüsünü de veriyor. p değeri anlamsız çıktığında ne yapılacağına dair rehberimiz bu konuya daha ayrıntılı bakıyor.

Hakemler neden post-hoc güç analizi istiyor?

Bazı hakemler hâlâ eski alışkanlıkla "güç analizi ekleyin" diyor. Böyle bir durumda şu yanıt işe yarıyor:

"Post-hoc güç analizi, gözlenen p değerinin bir dönüşümü olduğu için ek bilgi sağlamaz (Hoenig & Heisey, 2001). Bunun yerine güven aralıklarını raporladık; geniş güven aralığı örneklem yetersizliğini zaten göstermektedir."

Hakem ısrar ederse a priori analizi hatırlatmak işe yarıyor: "A priori güç analizi yapmıştık; beklenen etki büyüklüğü d = 0,5 idi, buna göre 64 kişi topladık. Ancak gözlenen etki d = 0,3 çıktı. Bu, örneklem yetersizliği değil, etkinin beklediğimizden küçük olması anlamına gelir."

A priori güç analizi neden farklı?

A priori güç analizi veri toplamadan önce yapılıyor ve şu soruya yanıt veriyor: "Belirli bir etkiyi görmek istiyorsam kaç kişiye ihtiyacım var?" Bu yaklaşım anlamlı, çünkü henüz veri toplanmadığı için p değerinden etkilenme söz konusu değil; beklenen etki büyüklüğü literatürden veya pilot çalışmadan tahmin ediliyor ve çalışmanın yapılabilirliği önceden değerlendiriliyor. Örneklem büyüklüğünü örneklem hesaplama aracıyla ön planlayabilir, kavramın ayrıntısını güç analizi nedir yazımızda inceleyebilirsiniz.

Anlamlı sonuç çıkmadığında ne işe yarar?

1. Güven aralığı raporlamak. "Fark 3,2 mg/dL (%95 GA: −1,8, 8,2) olarak bulundu." Bu, hem etkinin ne olabileceğini hem de belirsizliği gösteriyor.

2. Klinik anlamlılığı tartışmak. "Güven aralığının üst sınırı (8,2 mg/dL), klinik olarak anlamlı kabul edilen 10 mg/dL seviyesinin altındadır; dolayısıyla etki olsa bile küçüktür."

3. A priori güç analizini hatırlatmak. "Çalışma, d = 0,5 için %80 güçle tasarlandı; gözlenen etki bunun altında kaldı."

4. Sınırlılıkları açıkça belirtmek. "Örneklem büyüklüğü, küçük-orta etkiler için yeterli güç sağlamayabilir; daha büyük örneklemle replikasyon önerilir."

İpucu

Altın kural: post-hoc güç analizi yerine güven aralığı raporlamak çok daha bilgilendirici. Güven aralığı, hem etkinin büyüklüğünü hem de belirsizliği tek bir formatta gösteriyor.

Ne zaman güç analizi yapılır?

Zaman	Güç analizi tipi	Geçerli mi?
Veri toplamadan önce	A priori güç analizi	Evet, şart
Veri toplandıktan sonra	Post-hoc güç analizi	Hayır, anlamsız
Bir sonraki çalışma için	Gözlenen etkiye dayalı planlama	Dikkatli kullanılırsa evet

Mevcut çalışmadan bir sonraki çalışmayı planlıyorsanız gözlenen etki büyüklüğünü kullanabilirsiniz; ama bu, post-hoc değil yeni bir a priori analiz olur.

Gerçek örnekler nasıl görünüyor?

Yanlış kullanım: "p = 0,12 bulundu. Post-hoc güç analizi ~%34 çıktı. Örneklem yetersizliği nedeniyle anlamlı sonuç elde edilemedi."

Doğru kullanım: "p = 0,12 bulundu (%95 GA: −1,2, 9,8). Güven aralığının genişliği, küçük-orta etkiler için örneklem yetersizliğini göstermektedir. Daha büyük örneklemle replikasyon önerilir."

Daha iyi kullanım: "Çalışma, literatüre dayalı d = 0,5 için %80 güçle tasarlandı. Ancak gözlenen etki d = 0,28 olup beklentinin altındadır. Bu, örneklem yetersizliğinden ziyade etkinin beklediğimizden küçük olduğunu gösterir."

Sonuç yerine

Post-hoc güç analizi istatistiksel olarak anlamlı bir bilgi vermiyor; gözlenen p değerinin başka bir versiyonundan ibaret. Anlamlı sonuç çıkmadığında güven aralığını raporlamak, a priori güç analizini hatırlatmak, sınırlılıkları açıkça yazmak ve gelecek çalışmalar için öneri sunmak çok daha değerli.

Güç analizi, veri toplamadan önce yapıldığında anlamlı. Hakemler post-hoc güç analizi isterse nazikçe ama kararlıca itiraz etmekte fayda var; literatür bu konuda oldukça net. Model İstatistik olarak güç analizi planlamasında araştırmacının yanında duruyoruz — önemli olan doğru zamanda, doğru yöntemle hesaplama yapmak.

Not: Buradaki gözlenen güç değerleri iki yönlü test için normal yaklaşımıyla hesaplanmış tipik değerlerdir; kesin değer teste ve tasarıma göre az miktarda değişebilir. Temel ilke sabittir: gözlenen güç, p değerinin bir dönüşümüdür.

Kullanılan kaynaklar

Hoenig JM, Heisey DM. The abuse of power: the pervasive fallacy of power calculations for data analysis. The American Statistician. 2001;55(1):19-24.
Button KS, Ioannidis JPA, Mokrysz C, ve ark. Power failure: why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci. 2013;14(5):365-76. PMID 23571845 · DOI