Altı aylık veri toplamayı bitirdiniz. Analizi çalıştırdınız, SPSS çıktısına baktınız: p=0.001. Harika. Ama sonra hakem raporu geldi ve tek bir cümle yazdı: "Etki büyüklükleri raporlanmamış. Klinik anlamlılık tartışılmamış."
Bu yorum birçoğumuzun karşılaştığı bir durum. Çünkü p değeri size sadece bir şeyi söylüyor: "Bu fark şans eseri olabilir mi?" Ama hiç söylemediği bir şey var: "Bu fark ne kadar büyük?"
10.000 kişilik bir kohortda sistolik kan basıncında 0.3 mmHg'lık fark bile p<0.05 çıkabiliyor. Ama hiçbir klinisyen bu farkla tedavi kararı değiştirmez. Etki büyüklüğü tam da bu boşluğu dolduruyor.
p Değerinin Söylemediği Şey
p değeri örneklem büyüklüğüne bağlı. Büyük örneklemde klinik olarak anlamsız farklar "anlamlı" çıkıyor; küçük örneklemde klinik olarak önemli farklar "anlamsız" kalıyor. Bu ikinci durum, p değeri anlamsız çıktığında araştırmacıların en çok zorlandığı yorumlama sorunlarından biri.
Etki büyüklüğü ise örneklem büyüklüğünden bağımsız, standartlaştırılmış bir ölçü. Gruplar arasındaki farkın veya değişkenler arasındaki ilişkinin pratikte ne anlama geldiğini gösteriyor.
APA 2001'den bu yana etki büyüklüğü raporlamayı zorunlu tutuyor. CONSORT ve STROBE kılavuzları da aynı şeyi istiyor. Hakemler "p<0.05, istatistiksel olarak anlamlı" cümlesini artık yeterli bulmuyorlar. Farkın büyüklüğünü, güven aralığını ve klinik önemini tartışmanızı bekliyorlar.
Cohen's d: İki Grup Ortalaması Karşılaştırması
En yaygın kullanılan etki büyüklüğü ölçüsü. Formülü basit:
d = (M1 - M2) / SD_pooled
Cohen'in 1988'deki geleneksel eşikleri:
| d Değeri | Büyüklük | Pratik Anlam |
|---|---|---|
| 0.2 | Kucuk | Dağılımlar %85 örtüşür, fark gözle görülmez |
| 0.5 | Orta | Dağılımlar %67 örtüşür, dikkatli gözlemci sezer |
| 0.8 | Buyuk | Dağılımlar %53 örtüşür, fark kolayca fark edilir |
Ama bir uyarı: Cohen kendisi bile bu eşikleri "son çare" olarak tanımladı. Kardiyovasküler mortalitede d=0.2 hayat kurtarıcı olabilirken, bir eğitim müdahalesinde d=0.5 pratikte yetersiz kalabiliyor. Alanınızdaki bağlam her şeyi değiştiriyor.
Hedges' g: Küçük örneklemlerde (n<20) Cohen's d hafif yukarı yönlü sapma gösteriyor. Hedges' g bu sapmayı düzeltiyor. Meta-analizlerde ve küçük örneklemli çalışmalarda g tercih etmekte fayda var.
Glass' delta: İki grubun standart sapmaları belirgin şekilde farklıysa (müdahale hem ortalamayı hem varyansı değiştirmişse) sadece kontrol grubunun standart sapmasını paydaya koyuyor. Daha yorumlanabilir bir sonuç veriyor.
OR ve RR: Kategorik Sonuçlar İçin
İyileşti/iyileşmedi, komplikasyon var/yok gibi kategorik sonuçlarda oran tabanlı ölçüler devreye giriyor.
Odds Ratio (OR): Vaka-kontrol çalışmalarında ve lojistik regresyonda temel ölçü. OR=1.0 fark yok demek, OR=2.5 orta düzey etki, OR=4.3 büyük etki.
Ama OR'nin bilinen bir tuzağı var: olay prevalansı %10'u aştığında gerçek risk oranını abartıyor. Kohort çalışmalarında ve prevalansı yüksek sonuçlarda Risk Ratio (RR) tercih etmek daha güvenli.
Risk Ratio (RR): Daha sezgisel. RR=2.0 demek, "müdahale grubunda olay olasılığı kontrol grubunun iki katı" demek. Ama RR temel riski yansıtmıyor. %1'den %2'ye çıkış (RR=2.0) ile %30'dan %60'a çıkış (RR=2.0) klinik olarak tamamen farklı senaryolar. Bu yüzden RR her zaman mutlak risk farkıyla birlikte raporlanmalı.
Korelasyon (r) ve Determinasyon (R2)
Pearson r hem ilişki ölçüsü hem doğrudan etki büyüklüğü ölçüsü. Cohen'in eşikleri: r=0.10 küçük, r=0.30 orta, r=0.50 büyük.
Ama asıl bilgilendirici olan r2 (determinasyon katsayısı). r=0.30 "orta düzey korelasyon" diye raporluyorsunuz ama r2=0.09, yani açıklanan varyans sadece %9. Değişkenliğin %91'i başka faktörlerle açıklanıyor. Bu perspektif, korelasyon sonuçlarını yorumlarken çok daha gerçekçi bir tablo sunuyor.
Cohen's d ile r arasında dönüşüm de mümkün: r = d / sqrt(d2 + 4). Meta-analizlerde farklı çalışmaların etki büyüklüklerini ortak ölçeğe getirmek için kullanılıyor.
Eta-Kare ve Partial Eta-Kare: ANOVA Tasarımları
Üç veya daha fazla grup karşılaştırmasında Cohen's d yerine varyans açıklama oranı kullanılıyor.
| Ölçü | Küçük | Orta | Büyük |
|---|---|---|---|
| Eta-kare | 0.01 | 0.06 | 0.14 |
| Cohen's f | 0.10 | 0.25 | 0.40 |
SPSS varsayılan olarak partial eta-kare raporluyor. Partial eta-kare, eta-kareden sistematik olarak daha büyük çıkıyor çünkü paydada toplam kareler toplamı yerine etki + hata kullanılıyor. Bu iki ölçüyü doğrudan karşılaştırmamak gerekiyor. Yöntem bölümünde hangisini raporladığınızı açıkça belirtmek önemli.
Omega-kare: Eta-kare popülasyon etki büyüklüğünü yukarı yönlü tahmin ediyor, özellikle küçük örneklemlerde. Omega-kare daha tutucu bir tahmin sunuyor. Meta-analizlerde tercih ediliyor.
NNT: Klinisyenin Dili
Number Needed to Treat, tüm etki büyüklüğü ölçüleri arasında klinik yorumlanabilirliği en yüksek olanı.
NNT = 1 / |Risk Farkı|
Plasebo grubunda mortalite %20, tedavi grubunda %15 diyelim. NNT = 1 / 0.05 = 20. Bir ölümü önlemek için 20 hasta tedavi edilmeli.
Bu sayı, hasta ile iletişimde inanılmaz değerli. "Tedavi istatistiksel olarak anlamlı" demek yerine "Bu tedaviyi 20 hastaya uyguladığımızda bir ek hastada komplikasyonu önlemeyi bekliyoruz" demek, paylaşılmış karar verme sürecinde çok daha anlaşılır.
Ama NNT tek başına eksik. Her zaman tedavi süresi ve takip periyoduyla birlikte raporlanmalı. "NNT=20" ile "5 yıllık takipte NNT=20" arasında büyük fark var. Ayrıca NNT'nin güven aralığı da her zaman verilmeli. NNH (Number Needed to Harm) ile birlikte değerlendirilince fayda-zarar dengesi netleşiyor.
Yayınlanmış Verilerden Etki Büyüklüğü Türetmek
Güç analizi planlarken veya meta-analiz yaparken daha önce yayınlanmış çalışmalardan etki büyüklüğü hesaplamanız gerekiyor. Ama birçok çalışma etki büyüklüğünü doğrudan raporlamıyor.
Raporlanan istatistiklerden türetme yolları:
- Ortalama ve SD varsa: d = (M1 - M2) / SD_pooled (en doğrudan yöntem)
- t değeri varsa: d = t x sqrt(1/n1 + 1/n2)
- F değeri varsa (iki grup): d = 2 x sqrt(F / df_error)
- Ki-kare varsa (2x2): phi = sqrt(chi2 / N)
- Sadece p değeri varsa: Önce z veya t'ye dönüştürüp d hesaplanıyor, ama kesinlik en düşük bu yöntemde
Hangi yöntemi kullandığınızı ve kaynağını şeffaf biçimde raporlamak gerekiyor. Örneklem büyüklüğü hesaplama sürecinde etki büyüklüğü tahmininin güvenilirliği tüm hesaplamanın temelini oluşturuyor.
Makalede Nasıl Raporlanır?
Tutarlılık ve şeffaflık esası:
t-testi: "Müdahale grubu kontrol grubundan anlamlı derecede yüksek puan aldı (t(98) = 2.45, p = 0.016, d = 0.49, %95 GA [0.09, 0.89])."
ANOVA: "Gruplar arasında anlamlı fark saptandı (F(2, 147) = 5.32, p = 0.006, partial eta2 = 0.068)."
Lojistik regresyon: "Sigara içiciliği komplikasyon riskini anlamlı şekilde artırdı (OR = 2.8, %95 GA [1.4, 5.6], p = 0.003)."
Dikkat edilecek noktalar: Güven aralığını her zaman ekleyin. Kullanılan ölçü türünü (d, g, eta2, partial eta2) açıkça belirtin. Cohen eşiklerini mekanik uygulamayın, alana özgü yorum yapın. Ve en önemlisi: anlamsız sonuçlarda da etki büyüklüğünü raporlayın.
Akademik Not
Türkiye'de etki büyüklüğü raporlaması konusunda belirgin bir farkındalık açığı var. Etik kurul başvurularında güç analizi zorunlu hale gelmiş olsa da, etki büyüklüğü tahmininin nasıl belirlendiği çoğu zaman yeterince gerekçelendirilmiyor. "Cohen'in orta düzey etki büyüklüğü (d=0.5) baz alındı" ifadesi alanla ilgisi olmayan genel bir varsayım ve hakemler tarafından haklı olarak eleştiriliyor. Pilot çalışma veya literatür temelli tahmin her zaman daha güçlü.
Klinik Anlamlılık vs. İstatistiksel Anlamlılık
Bu ayrım, tıbbi araştırma yorumlamasının temel taşı:
| p < 0.05 | Etki Büyük | Yorum |
|---|---|---|
| Evet | Evet | İdeal. Tedavi hem anlamlı hem etkili. |
| Evet | Hayır | Tehlikeli. Büyük örneklem etkisi, klinik değeri sorgulanmalı. |
| Hayır | Evet | Yetersiz güç. Daha büyük örneklemle tekrar gerekli. |
| Hayır | Hayır | Gerçekten fark yok veya ihmal edilebilir. |
İkinci senaryo özellikle tehlikeli. 50.000 kişilik bir kohortda LDL'de 1 mg/dL fark p=0.01 çıkabiliyor ama bu fark hiçbir tedavi kararını değiştirmeyecek kadar küçük.
Üçüncü senaryo ise küçük örneklemli çalışmalarda sık karşılaşılan bir hayal kırıklığı. Etki büyüklüğü klinik olarak anlamlı ama istatistiksel güç yetersiz kaldığı için p eşiğin üzerinde kalıyor. Sorun çalışmanın sonucunda değil, örneklem büyüklüğü planlamasında.
MCID (Minimum Clinically Important Difference): Hastaların klinik olarak anlamlı hissettiği en küçük değişim. Alana ve ölçüm aracına özgü. Ağrı VAS'ında 13 mm'lik değişim MCID kabul ediliyor. Güç analizi planlarken MCID'yi etki büyüklüğü olarak kullanmak en güçlü yaklaşım.
Model İstatistik olarak etki büyüklüğü seçimi, hesaplaması ve yorumlaması konusunda araştırmacılara rehberlik sağlıyoruz. Özellikle güç analizi planlamasında literatür temelli etki büyüklüğü tahmini, çalışmanızın klinik olarak anlamlı bir farkı tespit edecek güce sahip olmasını sağlıyor.
Sonuçta, p değeri kapıyı açıyor. Ama etki büyüklüğü o kapının arkasında ne olduğunu gösteriyor.