p<0.001 buldum ama hakem 'klinik anlamlılık yok' dedi. Ne yapılabilir?

Hakem haklı olabilir. Yanıtta MCID literatür referansıyla belirtilir, gözlenen farkın MCID'nin altında/üstünde olduğu kabul edilir. Altındaysa kombinasyon tedavisi, maliyet-etkinlik, yan etki profili gibi ek argümanlar sunulabilir. Küçük etkinin değerli olabileceği klinik senaryoları tartışmak etkili bir strateji.

MCID değerini literatürde bulamıyorum. Ne yapılabilir?

İki seçenek var: (1) Cohen's d gibi standartlaştırılmış etki büyüklüğünü referans alıp alan standartlarına göre yorumlamak. (2) Uzman konsensüsü veya hasta odaklı anketlerle (anchor-based method) kendi MCID'yi belirlemek ve yöntemi detaylı açıklamak. İkinci yöntem daha fazla çaba gerektirir ama özgün bir katkı oluşturur.

10.000 kişilik çalışmada her şey anlamlı çıkıyor. Sorun var mı?

Büyük örneklemde ihmal edilebilir farklar bile p<0.05 çıkabiliyor. Her anlamlı sonuç için etki büyüklüğü hesaplanıp MCID ile karşılaştırılmalı. Cohen's d < 0.2 ve MCID altındaysa, istatistiksel anlamlılığa rağmen klinik relevansın düşük olduğu dürüstçe belirtilmeli.

Klinik olarak anlamlı ama istatistiksel olarak anlamsız bir sonuç yayınlanır mı?

Evet, ama dikkatli raporlama gerekiyor. Etki büyüklüğü ve güven aralığı detaylı sunulur, MCID'yi aştığı gösterilir, yetersiz örneklem büyüklüğü sınırlılık olarak belirtilir. PLOS ONE, BMJ Open gibi dergiler negatif sonuçlara açık. Metodoloji sağlamsa kabul edilebiliyor.

Etki büyüklüğü büyük ama klinik fark küçük. Bu nasıl olur?

Genellikle ölçüm aracı sorunu. Cohen's d standart sapmaya göre hesaplandığı için SD çok küçükse küçük ham farklar bile büyük d değeri verebiliyor. Ama o ham fark MCID'yi aşmıyorsa klinik olarak yetersiz. Örnek: VAS ağrı skoru 0.5 puan azalmış, SD=0.4 ise d=1.25 (büyük) — ama VAS'ta MCID 1.3, yani klinik olarak yetersiz.

Cohen's d mi Hedge's g mi raporlanmalı?

Cohen's d küçük örneklemlerde (n<50) etki büyüklüğünü hafifçe şişiriyor. Hedge's g bu yanlılığı düzeltiyor. Büyük örneklemlerde pratikte aynı sonucu veriyorlar. Küçük örneklemle çalışıldıysa Hedge's g tercih edilebilir — her ikisini de raporlayıp tutarlılığı göstermek de mümkün.

Meta-analizde etki büyüklükleri farklı çıkıyor. Hangisi MCID ile karşılaştırılır?

Havuzlanmış (pooled) etki büyüklüğü kullanılır. Heterojenite yüksekse (I² > 50%), alt grup analizleri yapılıp her alt grubun MCID ile ilişkisi ayrı yorumlanır. Orman grafiğinde MCID çizgisini referans olarak göstermek, klinik anlamlılığı görselleştirmenin etkili bir yolu.

İstatistiksel vs Klinik Anlamlılık: MCID ve Etki Büyüklüğü

Q: p<0.001 buldum ama hakem 'klinik anlamlılık yok' dedi. Ne yapılabilir?

Hakem haklı olabilir. Yanıtta MCID literatür referansıyla belirtilir, gözlenen farkın MCID'nin altında/üstünde olduğu kabul edilir. Altındaysa kombinasyon tedavisi, maliyet-etkinlik, yan etki profili gibi ek argümanlar sunulabilir. Küçük etkinin değerli olabileceği klinik senaryoları tartışmak etkili bir strateji.

Q: MCID değerini literatürde bulamıyorum. Ne yapılabilir?

İki seçenek var: (1) Cohen's d gibi standartlaştırılmış etki büyüklüğünü referans alıp alan standartlarına göre yorumlamak. (2) Uzman konsensüsü veya hasta odaklı anketlerle (anchor-based method) kendi MCID'yi belirlemek ve yöntemi detaylı açıklamak. İkinci yöntem daha fazla çaba gerektirir ama özgün bir katkı oluşturur.

Q: 10.000 kişilik çalışmada her şey anlamlı çıkıyor. Sorun var mı?

Büyük örneklemde ihmal edilebilir farklar bile p<0.05 çıkabiliyor. Her anlamlı sonuç için etki büyüklüğü hesaplanıp MCID ile karşılaştırılmalı. Cohen's d < 0.2 ve MCID altındaysa, istatistiksel anlamlılığa rağmen klinik relevansın düşük olduğu dürüstçe belirtilmeli.

Q: Klinik olarak anlamlı ama istatistiksel olarak anlamsız bir sonuç yayınlanır mı?

Evet, ama dikkatli raporlama gerekiyor. Etki büyüklüğü ve güven aralığı detaylı sunulur, MCID'yi aştığı gösterilir, yetersiz örneklem büyüklüğü sınırlılık olarak belirtilir. PLOS ONE, BMJ Open gibi dergiler negatif sonuçlara açık. Metodoloji sağlamsa kabul edilebiliyor.

Q: Etki büyüklüğü büyük ama klinik fark küçük. Bu nasıl olur?

Genellikle ölçüm aracı sorunu. Cohen's d standart sapmaya göre hesaplandığı için SD çok küçükse küçük ham farklar bile büyük d değeri verebiliyor. Ama o ham fark MCID'yi aşmıyorsa klinik olarak yetersiz. Örnek: VAS ağrı skoru 0.5 puan azalmış, SD=0.4 ise d=1.25 (büyük) — ama VAS'ta MCID 1.3, yani klinik olarak yetersiz.

Q: Cohen's d mi Hedge's g mi raporlanmalı?

Cohen's d küçük örneklemlerde (n<50) etki büyüklüğünü hafifçe şişiriyor. Hedge's g bu yanlılığı düzeltiyor. Büyük örneklemlerde pratikte aynı sonucu veriyorlar. Küçük örneklemle çalışıldıysa Hedge's g tercih edilebilir — her ikisini de raporlayıp tutarlılığı göstermek de mümkün.

Q: Meta-analizde etki büyüklükleri farklı çıkıyor. Hangisi MCID ile karşılaştırılır?

Havuzlanmış (pooled) etki büyüklüğü kullanılır. Heterojenite yüksekse (I² > 50%), alt grup analizleri yapılıp her alt grubun MCID ile ilişkisi ayrı yorumlanır. Orman grafiğinde MCID çizgisini referans olarak göstermek, klinik anlamlılığı görselleştirmenin etkili bir yolu.

Büyük bir örneklemle çalışıldığında, klinik olarak önemsiz bir fark bile "istatistiksel olarak son derece anlamlı" çıkabiliyor. Örneğin 5000 hastalık bir çalışmada yeni bir antidiyabetik ilacın HbA1c'yi ortalama %0,1 düşürdüğü p < 0,001 ile gösterilebilir; sayı etkileyici görünse de bir endokrinoloğun ilk tepkisi çoğu zaman aynı olur: "Bu fark klinik olarak bir şey ifade etmiyor." İstatistiksel anlamlılık ile klinik anlamlılık aynı şey değil — ve ikisini ayırt etmek, makalenin tartışma bölümünün kalitesini doğrudan belirliyor.

p değeri ne söylüyor, ne söylemiyor?

p değeri şunu söylüyor: gözlenen fark, rastlantıyla açıklanamayacak kadar büyük. Ama şunu söylemiyor: bu fark hastaya fayda sağlayacak kadar büyük mü? İstatistiksel anlamlılık bir olasılık hesabı; klinik anlamlılık ise hasta yönetiminde somut fark yaratan bir eşik meselesi. İkisi kimi zaman kesişiyor ama her zaman örtüşmüyor.

İki eksen her zaman örtüşmüyor; asıl hedef hem istatistiksel hem klinik olarak anlamlı sonuç.

İki senaryo bu ayrımı netleştiriyor. Senaryo 1: 40 hastada sistolik kan basıncını 12 mmHg düşürdünüz, p = 0,08. İstatistiksel olarak anlamlı değil, ama 12 mmHg'lık düşüş klinik olarak değerli; sorun metodolojik — örneklem bu etkiyi yakalayacak güçte değildi. Senaryo 2: 8000 hastada sistolik kan basıncını 1,4 mmHg düşürdünüz, p < 0,001. İstatistiksel olarak çok anlamlı, ama 1,4 mmHg hasta açısından fark yaratmıyor; etki gerçek ama klinik olarak önemsiz.

İki farklı tuzak

p anlamlı, klinik anlamsız

klinik anlamlı, p anlamsız

MCID: klinik anlamlılığın ölçülebilir hâli

MCID (klinik olarak anlamlı en küçük fark — minimal clinically important difference), hastaların ya da hekimlerin "bu bir iyileşme" diyebileceği en küçük değişim. Kavramı Jaeschke ve arkadaşları (1989) tanımladı: yedi maddelik Likert ölçeklerinde madde başına yaklaşık 0,5'lik ortalama değişimin klinik olarak anlamlı olduğunu gösterdiler. Sık atıf alan yaklaşık eşikler şöyle:

Parametre	Klinik anlamlılık eşiği (yaklaşık)	Not / kaynak
Yaşam kalitesi ölçeği (7'li Likert)	~0,5 / madde	Jaeschke ve ark. 1989 (özgün MCID)
VAS ağrı skoru (0-10)	~1,3-2,0	Kelly 2001 (~20 mm)
6 dakika yürüme testi (KOAH)	~25-35 metre	popülasyona bağlı
Sistolik kan basıncı	5-10 mmHg	kardiyovasküler risk hedefi
HbA1c	~%0,5	biyobelirteç eşiği, bağlama bağlı

Biyobelirteç eşikleri (HbA1c, kan basıncı) hasta tarafından algılanan MCID'den farklı, dolaylı ölçütlerdir; bu yüzden yaklaşık ve bağlama bağlı yorumlanmalı.

Gözlenen %0,1 düşüş, MCID eşiği %0,5'in belirgin altında kalıyor.

Yukarıdaki antidiyabetik örneğinde HbA1c farkı %0,1, yani MCID'nin (~%0,5) çok altında; p değeri ne kadar küçük olursa olsun klinik pratikte kullanılabilir bir bulgu değil.

Uyarı

MCID değerleri parametreye ve hasta popülasyonuna göre değişiyor; diyabetli yaşlılarda daha yüksek, gençlerde daha düşük olabilir. Kullanılacak eşik literatürden alınırken çalışma popülasyonuna uygun referansı seçmek gerekiyor.

Büyük örneklem paradoksu

İstatistiksel güç üç şeye bağlı: etki büyüklüğü, örneklem büyüklüğü ve alfa düzeyi. Örneklem yeterince büyükse, klinik olarak önemsiz bir etki bile p < 0,05'i geçiyor. Örneğin 10.000 kişilik bir çalışmada plasebo grubunda ortalama HbA1c %7,80, ilaç grubunda %7,75 olsun; fark %0,05, p = 0,002 — istatistiksel olarak anlamlı, ama Cohen's d hesaplandığında 0,08 çıkıyor, yani ihmal edilebilir düzeyde ve hasta için pratik değeri yok. Tersine, 50 kişilik bir çalışmada 18 mmHg sistolik düşüş bulunup p = 0,09 alınabiliyor: klinik olarak çok değerli bir etki, ama istatistiksel güç yetersiz kalmış. Bu durumda örneklem büyüklüğü hesaplama yapılıp gelecek çalışma için uygun hasta sayısı önerilebiliyor.

Etki büyüklüğü: p'nin eksik bıraktığını tamamlıyor

p değeri tek başına yeterli değil; standartlaştırılmış etki büyüklüğü (Cohen's d, Hedges'in g'si, eta-kare) klinik anlamlılığı yorumlamak için anahtar.

Cohen's d	Yorum
< 0,2	İhmal edilebilir
0,2 - 0,5	Küçük
0,5 - 0,8	Orta
> 0,8	Büyük

Bu eşikler genel bir kılavuz; bazı alanlarda d = 0,3 bile büyük sayılabilirken (eğitim araştırmaları) bazılarında d = 0,6 yetersiz kalıyor (akut cerrahi müdahale). Alan literatürünü iyi bilmek bu yorumda belirleyici.

Küçük etki büyüklüğü her zaman değersiz mi?

Klinik olarak küçük bir etki bazı durumlarda yine de değerli olabiliyor:

Düşük maliyetli müdahale: yan etkisi minimal, ucuz bir yöntem küçük fayda bile sağlasa kabul edilebilir.
Geniş popülasyon: milyonlarca kişide %0,1'lik iyileşme, toplum sağlığı açısından büyük etki yaratabilir.
Kombinasyon tedavisi: tek başına küçük etkili bir ilaç, diğer tedavilerle birlikte klinik fayda sağlayabilir.
Yan etki azalması: etkisi aynı ama yan etkisi daha az bir ilaç, küçük bir avantaj bile sunsa tercih edilebilir.

Bu bağlamları tartışma bölümünde açıklamak, "etkimiz küçük çıktı" eleştirisini önceden karşılayan güçlü bir strateji.

Raporlamada doğru yaklaşım

Sonuçlar bölümünde istatistiksel sonuçla birlikte klinik yorum da verilmeli: "Tedavi grubunda HbA1c ortalaması plasebo grubuna göre %0,1 daha düşük bulunmuştur (%95 GA %0,05-%0,15; p < 0,001; Cohen's d = 0,15). Bu fark istatistiksel olarak anlamlı olmakla birlikte, literatürde kabul edilen MCID eşiğinin (~%0,5) altındadır."

Tartışma bölümünde MCID referans gösterilerek klinik bağlam tartışılır: "Gözlenen HbA1c düşüşü klinik anlamlılık eşiğinin altında kalmıştır; ancak kombinasyon tedavisindeki rolü, maliyet-etkinlik ve yan etki profili birlikte değerlendirildiğinde ek seçenek olarak değerlendirilmeye değer olabilir."

Ham farkı (örneğin 3,2 mmHg), standartlaştırılmış etki büyüklüğünü (Cohen's d = 0,41) ve MCID'ye göre yorumu birlikte sunmak, hakemlerin takdir ettiği bir şeffaflık sağlıyor. p değeri anlamsız çıktığında ne yapılacağını bilmek de bu sürecin doğal tamamlayıcısı.

İpucu

Başlık ve özette bulguları şişirmemekte fayda var. "Yeni ilaç HbA1c kontrolünde etkili bulundu" yerine "Yeni antidiyabetik ajan HbA1c üzerinde ılımlı etki gösterdi" ifadesi daha dürüst — ve bu nüansı hakemler fark ediyor.

İstatistiksel ve klinik anlamlılık ayrımının doğru yapılması, tartışma bölümünün kalitesini belirliyor. Model İstatistik ekibi olarak analiz sonuçlarınızın hem istatistiksel hem klinik perspektiften yorumlanmasında araştırmacıya rehberlik ediyoruz.

Not: Buradaki fark, etki büyüklüğü ve MCID değerleri kavramı göstermek için seçilmiş örneklerdir; eşikler parametreye ve popülasyona göre değişir, kesin yorum çalışmanın kendi verisi üzerinden yapılır.

Kullanılan kaynaklar

Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Controlled Clinical Trials. 1989;10(4):407-415. · DOI
Kelly AM. Setting the benchmark for research in the management of acute pain in emergency departments. Emergency Medicine (Fremantle). 2001;13(1):57-60. · DOI

p değeri ne söylüyor, ne söylemiyor?

İki eksen her zaman örtüşmüyor; asıl hedef hem istatistiksel hem klinik olarak anlamlı sonuç.

İki farklı tuzak

p anlamlı, klinik anlamsız

klinik anlamlı, p anlamsız

MCID: klinik anlamlılığın ölçülebilir hâli

Parametre	Klinik anlamlılık eşiği (yaklaşık)	Not / kaynak
Yaşam kalitesi ölçeği (7'li Likert)	~0,5 / madde	Jaeschke ve ark. 1989 (özgün MCID)
VAS ağrı skoru (0-10)	~1,3-2,0	Kelly 2001 (~20 mm)
6 dakika yürüme testi (KOAH)	~25-35 metre	popülasyona bağlı
Sistolik kan basıncı	5-10 mmHg	kardiyovasküler risk hedefi
HbA1c	~%0,5	biyobelirteç eşiği, bağlama bağlı

Biyobelirteç eşikleri (HbA1c, kan basıncı) hasta tarafından algılanan MCID'den farklı, dolaylı ölçütlerdir; bu yüzden yaklaşık ve bağlama bağlı yorumlanmalı.

Gözlenen %0,1 düşüş, MCID eşiği %0,5'in belirgin altında kalıyor.

Yukarıdaki antidiyabetik örneğinde HbA1c farkı %0,1, yani MCID'nin (~%0,5) çok altında; p değeri ne kadar küçük olursa olsun klinik pratikte kullanılabilir bir bulgu değil.

Uyarı

Büyük örneklem paradoksu

Etki büyüklüğü: p'nin eksik bıraktığını tamamlıyor

p değeri tek başına yeterli değil; standartlaştırılmış etki büyüklüğü (Cohen's d, Hedges'in g'si, eta-kare) klinik anlamlılığı yorumlamak için anahtar.

Cohen's d	Yorum
< 0,2	İhmal edilebilir
0,2 - 0,5	Küçük
0,5 - 0,8	Orta
> 0,8	Büyük

Küçük etki büyüklüğü her zaman değersiz mi?

Klinik olarak küçük bir etki bazı durumlarda yine de değerli olabiliyor:

Düşük maliyetli müdahale: yan etkisi minimal, ucuz bir yöntem küçük fayda bile sağlasa kabul edilebilir.
Geniş popülasyon: milyonlarca kişide %0,1'lik iyileşme, toplum sağlığı açısından büyük etki yaratabilir.
Kombinasyon tedavisi: tek başına küçük etkili bir ilaç, diğer tedavilerle birlikte klinik fayda sağlayabilir.
Yan etki azalması: etkisi aynı ama yan etkisi daha az bir ilaç, küçük bir avantaj bile sunsa tercih edilebilir.

Bu bağlamları tartışma bölümünde açıklamak, "etkimiz küçük çıktı" eleştirisini önceden karşılayan güçlü bir strateji.

Raporlamada doğru yaklaşım

İpucu

Not: Buradaki fark, etki büyüklüğü ve MCID değerleri kavramı göstermek için seçilmiş örneklerdir; eşikler parametreye ve popülasyona göre değişir, kesin yorum çalışmanın kendi verisi üzerinden yapılır.

Kullanılan kaynaklar

Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Controlled Clinical Trials. 1989;10(4):407-415. · DOI
Kelly AM. Setting the benchmark for research in the management of acute pain in emergency departments. Emergency Medicine (Fremantle). 2001;13(1):57-60. · DOI

İstatistiksel ve Klinik Anlamlılık: p Değeri Yeterli mi?

p değeri ne söylüyor, ne söylemiyor?

İki farklı tuzak

MCID: klinik anlamlılığın ölçülebilir hâli

Büyük örneklem paradoksu

Etki büyüklüğü: p'nin eksik bıraktığını tamamlıyor

Küçük etki büyüklüğü her zaman değersiz mi?

Raporlamada doğru yaklaşım

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Etki Büyüklüğünü Belirleme: Güç Analizinin En Kritik Adımı

Güç Analizi Neden Gerekli ve Kimler İstiyor?

Araştırmanız İçin Destek Alın

İstatistiksel ve Klinik Anlamlılık: p Değeri Yeterli mi?

p değeri ne söylüyor, ne söylemiyor?

İki farklı tuzak

MCID: klinik anlamlılığın ölçülebilir hâli

Büyük örneklem paradoksu

Etki büyüklüğü: p'nin eksik bıraktığını tamamlıyor

Küçük etki büyüklüğü her zaman değersiz mi?

Raporlamada doğru yaklaşım

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

Etki Büyüklüğünü Belirleme: Güç Analizinin En Kritik Adımı

Güç Analizi Neden Gerekli ve Kimler İstiyor?

Araştırmanız İçin Destek Alın