G*Power'ı açtınız. Alfa 0.05, beta 0.20 yazdınız. Şimdi o kutucuk karşınızda: "Effect size d family."
Ne yazacaksınız? 0.5 mi? 0.8 mi? Bir önceki çalışmadan mı alacaksınız, yoksa "küçük etki" deyip 0.2 mi yazacaksınız?
Bu soruyu yüzlerce araştırmacıdan aldık. Hepsinin ortak noktası: alfa ve beta'yı ezberlemişler, ama effect size karşısında donup kalıyorlar. Haklılar da. Yanlış belirlerseniz ya gereksiz büyük örneklem toplarsınız, ya da gücünüz yetersiz kalır.
Effect size nedir ve neden bu kadar belirleyici?
Effect size, gruplararası farkın veya ilişkinin büyüklüğünü ifade ediyor. p değerinden farklı olarak örneklem büyüklüğünden etkilenmiyor. Küçük örneklemde bile büyük etki tespit edilebilir, dev örneklemde küçük etki anlamlı çıkabilir.
Güç analizi tam da bu yüzden effect size'a dayalı çalışıyor. Size şunu söylüyor: "Bu büyüklükte bir farkı yakalamak için kaç kişi gerekir?"
Peki bu büyüklüğü nereden bileceksiniz?
Dört strateji var. Her birinin güçlü ve zayıf yanları farklı.
Strateji 1: Literatürden almak
En güvenilir yol. Benzer popülasyonda, benzer tasarımla yapılmış bir çalışma varsa, o çalışmanın sonuçlarından effect size hesaplanabiliyor.
Somut bir örnek: retrospektif bir çalışma görmüşsünüz. İki grup karşılaştırması yapmışlar, ortalama HbA1c farkı 1.2, standart sapma 2.0 civarı. Cohen's d = 1.2 / 2.0 = 0.6. G*Power'a 0.6 yazabilirsiniz.
Eğer literatürde p değeri ve örnek sayısı verilmiş ama effect size raporlanmamışsa, çevrimiçi dönüştürücüler var. Psychometrica ve ClinCalc gibi araçlar p ve n'den effect size hesaplıyor.
Bir sorun var: literatürde bildirilen effect size'lar genellikle yayın yanlılığı (publication bias) nedeniyle abartılmış olabiliyor. Anlamlı çıkmayan çalışmalar yayınlanmadığı için, yayınlanan çalışmalardaki effect size'lar gerçekten biraz daha büyük görünüyor. Meta-analiz varsa ondan yararlanmak en güvenilir yol -- çünkü meta-analiz birden fazla çalışmanın ortalamasını alıyor ve bu yanlılığı azaltıyor.
Strateji 2: Pilot çalışma yapmak
Literatür yoksa veya mevcut çalışmalar sizin popülasyonunuzdan çok farklıysa, 10-20 kişilik bir pilot grup derleyip ölçüm yapmak mantıklı.
Ama dikkat gerektiren bir nokta var: pilot çalışmalar effect size'ı abartma eğiliminde. Küçük örneklemlerde rastlantısal dalgalanmalar büyük görünüyor. Bu yüzden hesapladığınız effect size'ı %10-20 düşürerek kullanmakta fayda var.
Pilot çalışma aynı zamanda güç analizinizi savunmanız için güçlü bir gerekçe oluşturuyor. "Effect size, pilot çalışmamızdan (n=15) elde edilen veriler temelinde hesaplanmıştır" -- hakem bunu "Cohen'in genel değerlerini kullandık" ifadesinden çok daha ikna edici buluyor.
Strateji 3: Cohen referans değerleri
Hiçbir kaynak yoksa Jacob Cohen'in önerdiği genel kılavuz değerleri kullanılabiliyor: Cohen's d için küçük etki 0.2, orta etki 0.5, büyük etki 0.8.
Effect Size Stratejileri: Güvenilirlik Karşılaştırması
Daha güvenilir
Daha az güvenilir
Bu değerler her alanda geçerli olmayabiliyor. Kardiyolojide 0.3'lük fark klinik olarak anlamlıyken, dermatolojide aynı etki küçük kalabiliyor. Cohen'in kendisi de bu değerlerin "son çare" olarak kullanılmasını önermiş. Eğer bu yolu tercih ediyorsanız, gerekçesini methods bölümünde açıkça belirtmeniz ve bunu bir limitasyon olarak not etmeniz bekleniyor.
Strateji 4: MCID (Minimum Clinically Important Difference)
Klinik çalışmalarda en mantıklı yaklaşım çoğu zaman bu. Kendinize sorun: ne kadarlık bir fark klinik olarak anlamlı olur?
Sistolik kan basıncında 2 mmHg düşüş mü yoksa 10 mmHg mü anlamlı? 10 mmHg. Genel popülasyonda standart sapma yaklaşık 15 mmHg. Buradan d = 10 / 15 = 0.67.
Bu yaklaşım hem istatistiksel hem klinik olarak anlamlı sonuçlar üretiyor. Ayrıca hakeme çok net bir gerekçe sunuyor: "Klinik olarak anlamlı minimum fark X birim olarak kabul edilmiş, populasyon standart sapması Y alınmıştır."
Birçok klinik ölçek ve sonlanım noktası için MCID değerleri literatürde tanımlanmış durumda. VAS ağrı skoru, SF-36, WOMAC gibi yaygın ölçeklerin MCID değerleri biliniyor. Bunları kullanmak effect size belirlemesini çok daha sağlam bir zemine oturtuyor.
Hangi metrik?
Effect size tek bir formül değil. Analiz tipine göre farklı metrikler var.
İki grup karşılaştırmasında (sürekli değişken) Cohen's d kullanılıyor. Kategorik değişkenlerde Odds Ratio veya Risk Ratio. Korelasyon analizinde Pearson r. ANOVA'da Cohen's f. Regresyonda f-kare veya R-kare.
G*Power'da doğru "effect size family" seçmek kritik. Yanlış metrik seçerseniz hesaplama temelden hatalı oluyor. Etki büyüklüğü hesaplama yöntemleri yazımızda her metriğin detaylı açıklaması ve dönüşüm formülleri mevcut.
Effect size çok küçük çıkarsa?
Literatürden hesapladınız, d=0.15 çıktı. G*Power 1200 kişi diyor. Toplamak imkansız.
Üç seçenek var. Birincisi, çalışmayı yapmamak. Ciddiye alınması gereken bir seçenek -- etki çok küçükse ve örneklem toplanamayacaksa, çalışma zaten yetersiz güçte olacak. İkincisi, farklı bir outcome seçmek. Belki daha büyük etkiye sahip bir sonlanım noktası vardır. Üçüncüsü, keşfedici (exploratory) bir çalışma olarak sunmak -- ama bu durumda yetersiz güç limitasyonunun açıkça raporlanması şart.
Effect size'ı abartmak
Danışanlarımızda sık gördüğümüz bir durum: araştırmacı kasıtlı olarak büyük effect size yazıyor. 0.3 yerine 0.8. Neden? Daha az hasta toplamak için.
Bu manipülasyon.
Güç analizini raporluyorsunuz. Hakem "effect size 0.8, makul" diye onaylıyor. Ama gerçek etki 0.3 ise, çalışmanız yetersiz güçte. p>0.05 çıkma olasılığı çok yüksek. Aylar süren veri toplama ve analiz, anlamsız bir p değeriyle sonuçlanıyor.
10 yıllık gözlemimize göre araştırmacıların önemli bir kısmı effect size'ı literatür araştırması yapmadan, pilot çalışma olmadan, sadece "makul görünen" bir sayı olarak belirliyor. Sonuç: çalışma bitiyor, p>0.05, "örneklem yetersizdi." Evet, yetersizdi -- çünkü effect size yanlış belirlenmişti.
Uyarı
Effect size'ı geriye dönük hesaplamak da yaygın bir hata. Çalışma bitti, p anlamlı çıktı, sonra "effect size ne olmuş bakalım" diye hesaplamak post-hoc power analizi oluyor. Güç analizi önceden yapılır. Sonradan yapılan güç analizi yanıltıcı sonuçlar veriyor ve hakemler bunu anında fark ediyor.
Şeffaflık: En güçlü savunma
Effect size belirlerken kaynağını belirtmek en önemli adım.
"Örneklem büyüklüğü, literatürde benzer çalışmalarda (Ref: Smith et al., 2023) bildirilen ortalama effect size (Cohen's d = 0.55) kullanılarak hesaplanmıştır." Veya: "Klinik olarak anlamlı fark 5 puan olarak kabul edilmiş ve popülasyon standart sapması 10 alınmıştır (d = 0.5)."
Bu şekilde hakem, varsayımınızı değerlendirebiliyor. Şeffaflık güvenilirlik demek. Ve güç analizinizi savunabilir hale getiriyor.
Güç analizi nedir? yazımızda temel kavramları, örneklem büyüklüğü hesaplama yazımızda pratik hesaplamaları ele almıştık.
Model İstatistik olarak güç analizi süreçlerinde effect size belirleme adımını standart olarak dahil ediyoruz -- literatür taraması, pilot veri değerlendirmesi ve MCID hesaplaması bu sürecin parçaları. Yetersiz örneklemle ne yapılır? yazımız da effect size yanlış belirlenmiş çalışmalar için kurtarma stratejileri sunuyor.
Effect size, güç analizinizin temeli. Temel sağlamsa, üzerine inşa ettiğiniz her şey sağlam.