Effect size'ı nereden bulacağımı bilmiyorum, ne yapmalıyım?

Önce literatür taraması yapmakta fayda var. Benzer çalışmalarda bildirilen ortalama, standart sapma veya p değerlerinden effect size hesaplanabiliyor. Meta-analiz varsa en güvenilir kaynak o. Hiçbir şey yoksa Cohen'in genel değerleri (küçük: 0.2, orta: 0.5, büyük: 0.8) kullanılabilir ama gerekçelendirmek gerekiyor.

Pilot çalışma yapmadan effect size belirlenebilir mi?

Evet, literatür desteği varsa. Benzer popülasyonda yapılmış çalışmaların sonuçları kullanılabiliyor. Ama alanınızda hiçbir çalışma yoksa, pilot çalışma yapmak veya genel kılavuz değerleri kullanıp bunu limitasyon olarak belirtmek gerekiyor.

Cohen's d ile Odds Ratio arasındaki fark nedir?

Cohen's d sürekli değişkenler için -- ortalama farkını standart sapmaya bölerek hesaplanıyor. Odds Ratio kategorik değişkenler için -- iki grup arasında bir olayın gerçekleşme oranını karşılaştırıyor. Analiz tipine göre doğru metriği seçmek gerekiyor.

Effect size çok küçük çıktı, örneklem toplayamayacağım. Ne yapmalıyım?

Üç seçenek var: çalışmadan vazgeçmek, daha büyük etkiye sahip farklı bir outcome seçmek, veya çalışmayı exploratory olarak yapıp yetersiz gücü limitasyon olarak bildirmek. Effect size'ı abartmak kesinlikle çözüm değil.

G*Power'da 'effect size f family' ne demek?

ANOVA ve regresyon gibi analizlerde kullanılan bir effect size metrik ailesi. Cohen's f, f-kare veya eta-kare gibi metrikler içeriyor. Cohen's d ile karıştırılmamalı -- farklı analiz tipleri için farklı metrikler gerekiyor.

Literatürde farklı çalışmalarda farklı effect size'lar var. Hangisini tercih etmeli?

Meta-analiz varsa ondan yararlanmak en güvenilir yol. Yoksa, kendi popülasyonunuza ve metodolojinize en yakın çalışmayı seçmek mantıklı. Birden fazla kaynak varsa ortalamaları alınabilir. Hangi kaynağı kullandığınızı ve neden tercih ettiğinizi mutlaka methods bölümünde belirtmeniz bekleniyor.

Post-hoc power analizi yapmak doğru mu?

Hayır. Çalışma bittikten sonra yapılan güç analizi yanıltıcı. Gözlenen effect size ve p değeri arasında matematiksel bir bağ olduğu için, post-hoc güç analizi yeni bilgi vermiyor. Güç analizi mutlaka çalışma başlamadan önce yapılmalı.

Effect Size (Etki Büyüklüğü) Belirleme Stratejileri

Güç analizinin üç girdisi var: alfa, güç ve etki büyüklüğü. İlk ikisini araştırmacıların çoğu ezbere biliyor — alfa 0,05, güç 0,80. Ama sıra etki büyüklüğüne (effect size) geldiğinde çoğu kişi duraksıyor: G*Power'daki o kutuya ne yazılacak? 0,5 mi, 0,8 mi? Önceki bir çalışmadan mı alınacak, yoksa "küçük etki" deyip 0,2 mi girilecek?

Bu, güç analizinin en çok kafa karıştıran adımı ve haklı bir gerekçesi var: yanlış belirlenen bir etki büyüklüğü ya gereksiz büyük bir örnekleme ya da yetersiz güce yol açıyor. İyi haber şu ki değeri belirlemenin dört farklı yolu var ve her birinin güçlü ile zayıf yanları belli.

Belirlediğiniz etki büyüklüğünü girip gerekli örneklemi anında görmek için web sitemizdeki örneklem hesaplama aracını kullanabilirsiniz; Cohen's d, oran farkı ve korelasyon için ortalama ve standart sapmadan da etki büyüklüğü türetebiliyor.

Etki büyüklüğü nedir ve neden bu kadar belirleyici?

Etki büyüklüğü, gruplar arasındaki farkın ya da bir ilişkinin büyüklüğünü ifade ediyor. p değerinden farklı olarak örneklem büyüklüğünden etkilenmiyor: küçük örneklemde bile büyük bir etki saptanabilirken, çok büyük örneklemde önemsiz bir etki "anlamlı" çıkabiliyor. Güç analizi tam da bu yüzden etki büyüklüğüne dayanıyor; size "bu büyüklükte bir farkı yakalamak için kaç kişi gerekir?" sorusunun yanıtını veriyor. Sullivan ve Feinn'in (2012) vurguladığı gibi, etki büyüklüğü sonucun pratik önemini p değerinin tek başına söyleyemediği biçimde ortaya koyuyor.

Peki bu büyüklük nereden bilinecek? Dört strateji üzerinden gidelim.

Strateji 1: literatürden almak

En güvenilir yol. Benzer popülasyonda, benzer tasarımla yapılmış bir çalışma varsa etki büyüklüğü onun sonuçlarından hesaplanabiliyor. Örneğin retrospektif bir çalışmada iki grup karşılaştırılmış, ortalama HbA1c farkı 1,2 ve standart sapma 2,0 civarıysa Cohen's d = 1,2 / 2,0 = 0,6 olur ve G*Power'a 0,6 girilebilir. Literatürde p değeri ile örneklem verilmiş ama etki büyüklüğü raporlanmamışsa, bu değerlerden etki büyüklüğüne geçiş yapan hesaplama yöntemleri de mevcut (Lakens, 2013 bu dönüşümleri ayrıntılı ele alıyor).

Tek uyarı: yayınlanmış çalışmalardaki etki büyüklükleri, yayın yanlılığı (publication bias) nedeniyle biraz abartılı olabiliyor — anlamlı çıkmayan çalışmalar çoğu zaman yayınlanmadığı için literatür, gerçekte olduğundan bir tık daha büyük etkiler gösteriyor. Meta-analiz varsa ondan yararlanmak en sağlam seçenek; çünkü birden çok çalışmanın ortalamasını alarak bu yanlılığı azaltıyor.

Strateji 2: pilot çalışma yapmak

Literatür yoksa ya da mevcut çalışmalar sizin popülasyonunuzdan çok farklıysa, 10-20 kişilik bir pilot grupla ölçüm yapmak mantıklı. Ancak pilot çalışmalar etki büyüklüğünü abartma eğiliminde: küçük örneklemlerde rastlantısal dalgalanmalar olduğundan büyük görünüyor. Bu yüzden pilottan hesapladığınız değeri %10-20 düşürerek kullanmakta fayda var.

Pilot veri aynı zamanda güç analizini savunmak için güçlü bir gerekçe sunuyor. "Etki büyüklüğü, pilot çalışmamızdan (n = 15) elde edilen verilere dayanmaktadır" ifadesi, hakem gözünde "Cohen'in genel değerlerini kullandık" demekten çok daha ikna edici.

Strateji 3: Cohen referans değerleri

Hiçbir kaynak yoksa Jacob Cohen'in (1988) önerdiği genel kılavuz değerlere başvurulabiliyor: Cohen's d için küçük etki 0,2, orta etki 0,5, büyük etki 0,8.

Etki büyüklüğü kaynakları: güvenilirlik karşılaştırması

Daha güvenilir

Daha az güvenilir

Bu değerler her alanda geçerli olmayabiliyor; kardiyolojide 0,3'lük bir fark klinik olarak anlamlıyken dermatolojide aynı etki küçük kalabiliyor. Cohen'in kendisi de bu eşiklerin "son çare" olarak kullanılmasını önermişti. Bu yolu tercih ediyorsanız gerekçesini yöntem bölümünde açıkça belirtmeniz ve bir sınırlılık olarak not etmeniz bekleniyor.

Strateji 4: MCID (klinik olarak anlamlı en küçük fark)

Klinik çalışmalarda çoğu zaman en mantıklı yaklaşım bu. Soru şu: ne kadarlık bir fark klinik olarak anlamlı olur? Sistolik kan basıncında 2 mmHg'lık düşüş mü yoksa 10 mmHg mı anlamlı? Yanıt 10 mmHg ise ve genel popülasyonda standart sapma yaklaşık 15 mmHg ise, buradan d = 10 / 15 = 0,67 elde edilir.

Bu yaklaşım hem istatistiksel hem de klinik olarak anlamlı bir zemin kuruyor ve hakeme çok net bir gerekçe veriyor: "Klinik olarak anlamlı en küçük fark X birim kabul edilmiş, popülasyon standart sapması Y alınmıştır." VAS ağrı skoru, SF-36, WOMAC gibi yaygın ölçeklerin MCID değerleri literatürde tanımlı olduğu için bunları kullanmak etki büyüklüğü belirlemesini çok daha sağlam kılıyor.

Dört stratejiyi bir arada görmek, hangi durumda hangisine başvurulacağını netleştiriyor:

Kaynak ne kadar yukarıdaysa güç analiziniz o kadar sağlam bir zemine oturuyor.

Strateji	Kaynak	Güçlü yanı	Dikkat
Literatür / meta-analiz	Yayınlanmış çalışmalar	En sağlam gerekçe	Yayın yanlılığı abartabilir
Pilot çalışma	Kendi ön veriniz (n = 10-20)	Popülasyona özgü	Değeri %10-20 düşürün
MCID	Klinik anlamlı en küçük fark	Klinik ve istatistik anlam	Ölçeğe özgü MCID gerekir
Cohen varsayılanları	0,2 / 0,5 / 0,8	Kaynak yokken pratik	Son çare; yöntemde gerekçelendir

Hangi metrik hangi analize?

Etki büyüklüğü tek bir formül değil; analiz tipine göre farklı metrikler kullanılıyor. İki grup karşılaştırmasında (sürekli değişken) Cohen's d, kategorik değişkenlerde odds ratio veya risk ratio, korelasyon analizinde Pearson r, ANOVA'da Cohen's f, regresyonda f² veya R² devrede. G*Power'da doğru metriği seçmek belirleyici; yanlış metrik seçildiğinde hesaplama temelden hatalı oluyor. Her metriğin ayrıntısını ve dönüşüm formüllerini etki büyüklüğü hesaplama yöntemleri yazımızda ele aldık.

Etki büyüklüğü çok küçük çıkarsa?

Diyelim ki literatürden hesapladınız ve d = 0,15 çıktı. Bu durumda G*Power'ın istediği örneklem, iki grup için yaklaşık 1400 kişiye (grup başına ~700) ulaşıyor — çoğu tek merkez için pratikte toplanamaz bir sayı. Etki küçüldükçe gereken örneklemin ne kadar hızlı büyüdüğünü aşağıdaki eğri gösteriyor:

Etki yarıya inince örneklem yaklaşık dört katına çıkıyor; çok küçük etkilerde sayı erişilmez hale geliyor.

Böyle bir durumda üç seçenek var. Birincisi, çalışmayı bu haliyle yürütmemek — etki gerçekten çok küçük ve örneklem toplanamayacaksa, çalışma zaten baştan yetersiz güçte olur. İkincisi, farklı bir sonlanım noktası seçmek; belki daha büyük etkiye sahip, klinik olarak da değerli bir ölçüt vardır. Üçüncüsü, çalışmayı keşfedici (exploratory) olarak sunmak — ama bu durumda yetersiz güç sınırlılığının açıkça raporlanması şart. Küçük örneklemle geçerli çıktı üretmenin yollarını nadir hastalıklarda örneklem yazımızda ayrıca ele aldık.

Etki büyüklüğünü abartmak

Danışanlarımızda sık gördüğümüz bir durum, araştırmacının bilerek büyük bir etki büyüklüğü girmesi: 0,3 yerine 0,8. Amaç genellikle daha az hasta toplamak. Oysa bu, güç analizini içeriden zayıflatıyor. Hakem "etki büyüklüğü 0,8, makul" diyerek onaylıyor; ama gerçek etki 0,3 ise çalışma yetersiz güçte kalıyor, p > 0,05 çıkma olasılığı yükseliyor ve aylar süren veri toplama anlamsız bir sonuçla bitiyor.

10 yıllık gözlemimize göre araştırmacıların önemli bir bölümü etki büyüklüğünü literatür taraması ya da pilot veri olmadan, yalnızca "makul görünen" bir sayı olarak belirliyor. Sonuç çoğu zaman aynı: çalışma bitiyor, p > 0,05 çıkıyor ve "örneklem yetersizdi" deniyor. Gerçekten de yetersizdi — çünkü etki büyüklüğü baştan yanlış seçilmişti.

Uyarı

Etki büyüklüğünü geriye dönük hesaplamak da yaygın bir hata. Çalışma bittikten, p anlamlı çıktıktan sonra "etki büyüklüğü ne olmuş bakalım" demek post hoc güç analizine dönüşüyor. Güç analizi önceden yapılır; sonradan yapılanı hakemler kolayca fark ediyor. Bu konuyu post-hoc güç analizi yazımızda ele aldık.

Şeffaflık: en güçlü savunma

Etki büyüklüğünü belirlerken kaynağını açıkça belirtmek, güç analizinin en güçlü savunması. Örneğin: "Örneklem büyüklüğü, benzer popülasyonda yürütülen bir referans çalışmada bildirilen etki büyüklüğü (Cohen's d = 0,55) temel alınarak hesaplanmıştır." Ya da: "Klinik olarak anlamlı en küçük fark 5 puan kabul edilmiş, popülasyon standart sapması 10 alınmıştır (d = 0,5)." Böylece hakem varsayımınızı değerlendirebiliyor; şeffaflık, güvenilirliğin ve savunulabilirliğin temeli oluyor.

Temel kavramları güç analizi nedir yazımızda, pratik hesaplamaları örneklem büyüklüğü hesaplama yazımızda ele almıştık. Model İstatistik olarak güç analizi sürecinde etki büyüklüğü belirleme adımını — literatür taraması, pilot veri değerlendirmesi ve MCID hesaplaması — standart olarak dahil ediyor, araştırmacıyla birlikte en savunulabilir gerekçeyi kuruyoruz. Etki büyüklüğü, güç analizinin temelidir; bu temel sağlamsa üzerine kurulan her şey sağlam oluyor.

Not: Buradaki örneklem değerleri iki yönlü test için tipik G*Power çıktılarıdır ve testin tam yapılandırmasına göre az miktarda değişebilir. Kesin planlama, çalışmanın kendi tasarımı üzerinden yapılır.

Kullanılan kaynaklar

Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2. baskı. Hillsdale, NJ: Lawrence Erlbaum; 1988.
Lakens D. Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology. 2013;4:863. · DOI
Sullivan GM, Feinn R. Using effect size—or why the P value is not enough. Journal of Graduate Medical Education. 2012;4(3):279-282. · DOI

Etki büyüklüğü kaynakları: güvenilirlik karşılaştırması

Daha güvenilir

Daha az güvenilir

Strateji 4: MCID (klinik olarak anlamlı en küçük fark)

Dört stratejiyi bir arada görmek, hangi durumda hangisine başvurulacağını netleştiriyor:

Kaynak ne kadar yukarıdaysa güç analiziniz o kadar sağlam bir zemine oturuyor.

Strateji	Kaynak	Güçlü yanı	Dikkat
Literatür / meta-analiz	Yayınlanmış çalışmalar	En sağlam gerekçe	Yayın yanlılığı abartabilir
Pilot çalışma	Kendi ön veriniz (n = 10-20)	Popülasyona özgü	Değeri %10-20 düşürün
MCID	Klinik anlamlı en küçük fark	Klinik ve istatistik anlam	Ölçeğe özgü MCID gerekir
Cohen varsayılanları	0,2 / 0,5 / 0,8	Kaynak yokken pratik	Son çare; yöntemde gerekçelendir

Not: Buradaki örneklem değerleri iki yönlü test için tipik G*Power çıktılarıdır ve testin tam yapılandırmasına göre az miktarda değişebilir. Kesin planlama, çalışmanın kendi tasarımı üzerinden yapılır.

Kullanılan kaynaklar

Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2. baskı. Hillsdale, NJ: Lawrence Erlbaum; 1988.
Lakens D. Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology. 2013;4:863. · DOI
Sullivan GM, Feinn R. Using effect size—or why the P value is not enough. Journal of Graduate Medical Education. 2012;4(3):279-282. · DOI

Etki Büyüklüğünü Belirleme: Güç Analizinin En Kritik Adımı

Etki büyüklüğü nedir ve neden bu kadar belirleyici?

Strateji 1: literatürden almak

Strateji 2: pilot çalışma yapmak

Strateji 3: Cohen referans değerleri

Etki büyüklüğü kaynakları: güvenilirlik karşılaştırması

Strateji 4: MCID (klinik olarak anlamlı en küçük fark)

Hangi metrik hangi analize?

Etki büyüklüğü çok küçük çıkarsa?

Etki büyüklüğünü abartmak

Şeffaflık: en güçlü savunma

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Etki Büyüklüğü Hesaplama: d, OR, NNT ve Ötesi

Güç Analizi Nedir? Kavram, Parametreler ve Formül

Örneklem Büyüklüğü Nasıl Hesaplanır?

Araştırmanız İçin Destek Alın

Etki Büyüklüğünü Belirleme: Güç Analizinin En Kritik Adımı

Etki büyüklüğü nedir ve neden bu kadar belirleyici?

Strateji 1: literatürden almak

Strateji 2: pilot çalışma yapmak

Strateji 3: Cohen referans değerleri

Etki büyüklüğü kaynakları: güvenilirlik karşılaştırması

Strateji 4: MCID (klinik olarak anlamlı en küçük fark)

Hangi metrik hangi analize?

Etki büyüklüğü çok küçük çıkarsa?

Etki büyüklüğünü abartmak

Şeffaflık: en güçlü savunma

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Etki Büyüklüğü Hesaplama: d, OR, NNT ve Ötesi

Güç Analizi Nedir? Kavram, Parametreler ve Formül

Örneklem Büyüklüğü Nasıl Hesaplanır?

Araştırmanız İçin Destek Alın