p değerim 0.06-0.08 arasında çıktı, ne yapabilirim?

Etki büyüklüğüne ve güven aralığına odaklanmak en sağlıklı yol. p=0.06 ile p=0.04 arasındaki fark istatistiksel olarak çok küçük, arada keskin bir sınır yok. 'Anlamlılığa yaklaşan bir eğilim gözlenmiştir' ifadesi kullanılabiliyor ama asıl vurgunun güven aralığı ve etki büyüklüğü üzerinden olması daha güçlü bir metin ortaya çıkarıyor.

p=0.049 ile p=0.051 arasında gerçekten bir fark var mı?

Pratik olarak hiçbir fark yok. İkisi de aynı düzeyde kanıt sunuyor. 0.05 eşiği tamamen keyfi bir sınır. ASA'nın 2016 bildirisinde açıkça belirtildiği gibi, p değerini geçti/kaldı şeklinde yorumlamak doğru değil. Etki büyüklüğüne ve güven aralığına bakmak çok daha bilgilendirici.

Tüm sonuçlarım anlamsız çıktı. Bu çalışma yayınlanabilir mi?

Metodoloji sağlamsa ve raporlama şeffafsa, birçok dergi negatif sonuçlu çalışmaları kabul ediyor. PLOS ONE ve BMJ Open bu konuda açık politikaya sahip. Etki büyüklüklerini, güven aralıklarını ve güç analizini eksiksiz sunmak burada kilit nokta.

Örneklemim küçük, p anlamsız çıktı. Daha fazla veri toplayıp tekrar analiz edebilir miyim?

Dikkatli olmak gerekiyor. Sonucu görüp ardından 'biraz daha hasta ekleyeyim' demek alfa düzeyini şişiriyor ve p-hacking'e kapı açıyor. Bu yola gidilecekse sequential analysis veya interim analiz çerçevesinde, önceden belirlenmiş kurallarla ilerlemek şart. Aksi takdirde yeni bir çalışma olarak planlamak daha sağlıklı.

Hakem, p değerinin anlamsız çıkmasını eleştirdi. Nasıl yanıt verebilirim?

Yanıtta şunları göstermek genellikle etkili oluyor: etki büyüklüğü ve güven aralığı detaylı raporlanmış, a priori güç analizi yapılmış, sonuçlar literatürdeki bir boşluğu dolduruyor. ASA bildirisi ve CONSORT/STROBE kılavuzlarını referans vermek de güçlü bir argüman oluşturuyor.

Etki büyüklüğü büyük ama p anlamlı değil — bu nasıl oluyor?

Genellikle yetersiz örneklem büyüklüğünden kaynaklanıyor. Küçük örneklemde standart hata büyük oluyor, güven aralığı genişliyor ve anlamlılığa ulaşmak zorlaşıyor. Bulgular umut verici demek — daha büyük örneklemle tekrarlanmayı hak ediyor. Etki büyüklüğü tahminini gelecek çalışmalar için referans olarak sunmak değerli bir katkı.

Non-parametrik testte anlamsız, parametrik testte anlamlı çıkıyor. Hangisini raporlamalıyım?

Normallik varsayımına göre karar vermek en doğrusu. Varsayım sağlanıyorsa parametrik test birincil, sağlanmıyorsa non-parametrik. İkisini de raporlayıp tutarlılığı tartışmak da mümkün — bu şeffaflık hakemler tarafından olumlu karşılanıyor. Ama sonucu beğenilen teste göre seçmek p-hacking'e giriyor.

p 0.05 Ne Demek? Anlamsız p Değeri

Aylarca veri toplayıp analizi çalıştırdıktan sonra p = 0,12 görmek, çoğu araştırmacıda "bunca emek boşa mı gitti?" hissi uyandırıyor. Oysa istatistiksel olarak anlamsız bir sonuç, verinin değersiz olduğu anlamına gelmiyor — doğru okunduğunda çoğu zaman beklenenden çok daha fazlasını söylüyor. Anahtar, p değerinin gerçekte ne dediğini ve ne demediğini ayırt etmekte.

p > 0,05 aslında ne diyor?

p değeri 0,05'in üstünde çıktığında istatistiğin söylediği tek şey var: elimdeki veri, gruplar arasında fark olduğunu gösterecek kadar güçlü bir kanıt sunmuyor. "Fark yok" demiyor, "kanıt yetmedi" diyor — ve bu ikisi birbirinden çok farklı. Altman ve Bland'ın (1995) meşhur ifadesiyle, "kanıtın yokluğu, yokluğun kanıtı değildir."

Anlamsız p, "fark yok" değil "kanıt yetersiz" demek.

Şöyle düşünmek işe yarıyor: karanlık bir odada fil arıyorsunuz, el yordamıyla dolaştınız ama file dokunmadınız. Bu "odada fil yok" mu demek, yoksa "ışık yoktu, yeterince bakamadım" mı? Çoğu zaman ikincisi. Burada iki farklı hata riski var: Tip I hata, olmayan bir farkı varmış gibi görmek (bunu alfa düzeyiyle kontrol ediyoruz); Tip II hata ise var olan bir farkı gözden kaçırmak. p > 0,05 çıktığında akla gelmesi gereken ilk soru şu: acaba Tip II hata mı yaptım — fark gerçekten var ama çalışmam onu yakalayacak güçte değil miydi? Bu sorunun yanıtı etki büyüklüğünde ve güven aralığında saklı.

Bir de kritik bir dil ayrıntısı: hakemlere "gruplar arasında fark yoktur" yazmak istatistiksel bir hata sayılıyor. Doğru ifade "istatistiksel olarak anlamlı fark saptanmamıştır" biçiminde; küçük bir ayrıntı gibi görünse de hakemler bu farkı ciddiye alıyor.

Anlamsız p sonrası üç tuzak

p anlamlı çıkmadığında birkaç yaygın refleks ortaya çıkıyor; danışanlarımızda da sık gördüğümüz durumlar bunlar.

Alt grup avı. Genel sonuç anlamsız çıkınca "kadınlarda ayrı bakalım, 50 yaş üstünde ayrı bakalım, diyabetli grupta ayrı bakalım" arayışı başlıyor. Yeterince alt gruba bakıldığında bir yerden anlamlılık çıkıyor — ama bu gerçek bir bulgu değil, istatistiksel gürültü. Örneğin 200 kişilik bir çalışmada 8 farklı alt grup karşılaştırması yapıldığında, tamamen rastgele bile olsa en az birinden anlamlı sonuç çıkma olasılığı %34'e ulaşıyor (1 − 0,95⁸). Alt grup analizi gerçekten gerekliyse, önceden protokole yazılmış olması ve çoklu karşılaştırma düzeltmesi uygulanması şart.

Seçici uç değer çıkarma. "Şu iki hastayı çıkarınca p = 0,04 oluyor" mantığı cazip gelebiliyor. Ama önceden tanımlanmış bir uç değer protokolü yoksa bu yola girmemek çok daha sağlıklı; sonuca bakıp geriye dönük veri temizliği yapmak, hakemler için ciddi bir kırmızı bayrak.

Hipotezi sonradan değiştirmek. Birincil sonuç ölçütü anlamsız çıkınca ikincil bir ölçütü ana hipotezmiş gibi sunmak — buna HARKing (Hypothesizing After Results are Known) deniyor ve bilimsel dürüstlükle arasındaki çizgi çok ince. Bu üç tuzağın herhangi biri, p = 0,12'den çok daha büyük bir kariyer riski taşıyor.

Etki büyüklüğü neden daha çok şey anlatıyor

p değeri yalnızca "var mı yok mu" sorusuna yanıt veriyor; etkinin klinik olarak önemli mi yoksa ihmal edilebilir mi olduğunu söylemiyor. Bunun için etki büyüklüğü hesaplamak gerekiyor — Sullivan ve Feinn'in (2012) vurguladığı gibi, sonucun pratik önemini p değil etki büyüklüğü ortaya koyuyor.

Somut bir örnek: yeni bir ilacın kan basıncını ortalama 8 mmHg düşürdüğünü gördünüz ama p = 0,12 çıktı. Cohen's d hesapladığınızda 0,6 buluyorsunuz — orta-büyük bir etki. Sorun ilacın etkisiz olması değil, çalışmanın bu etkiyi yakalayacak kadar büyük olmaması: toplam 45 kişiyle (grup başına ~22) çalıştıysanız istatistiksel güç yaklaşık %50 düzeyinde kalıyor, yani gerçek bir farkı ancak yarı yarıya yakalayabilecek bir tasarım.

Böyle bir durumda "ilaç etkisizdir" yazmak doğru değil. "Klinik olarak anlamlı olabilecek bir etki gözlenmiş olmakla birlikte, mevcut örneklem büyüklüğü bu etkiyi istatistiksel olarak doğrulamaya yetmemiştir" çok daha isabetli bir ifade — ilki hakemi tatmin etmiyor, ikincisi ediyor.

Güven aralığı, p'nin söylemediğini söylüyor

p değeriyle birlikte güven aralığını raporlamak birçok dergide zaten zorunlu. Aynı p > 0,05'in iki farklı hikâye anlatabildiğini görmek nedenini netleştiriyor:

İkisinde de p > 0,05, ama hikâyeler tamamen farklı. Güven aralığı bu farkı net biçimde ortaya koyarken, p değeri tek başına koyamıyor.

Post-hoc güç analizi yanılgısı

"Gücümüz düşükmüş, o yüzden anlamsız çıktı" diyerek post-hoc güç analizi yapıp tartışmaya koymak yaygın bir tercih. Ama burada ciddi bir sorun var: gözlenen güç, p değerinin matematiksel bir dönüşümünden ibaret. p anlamsız çıkmışsa gözlenen güç zaten düşük çıkacaktır; yeni bir bilgi vermez, bilineni farklı bir sayıyla tekrarlar. İşe yarayan yöntem farklı — gözlenen etki büyüklüğünü referans alıp "bu etkiyi %80 güçle yakalamak için gelecekte kaç kişilik örneklem gerekir?" hesabı çok daha değerli.

Cevap p değerinde değil, etki büyüklüğü ile güven aralığında.

Bu ileriye dönük örneklem hesabı, tartışma bölümünde gerçekten yararlı bir bilgi ve hakemler de bunu görmek istiyor. Güç analizi kavramını daha yakından incelemek isterseniz o yazıya göz atabilirsiniz.

Negatif sonucu yayına hazırlamak

Negatif sonuçlu bir çalışmayı yayınlanabilir kılan şey, raporlama kalitesi. Sonuçlar bölümünde test istatistiği, p değeri, etki büyüklüğü ve güven aralığını birlikte vermek gerekiyor; "anlamsız çıktı" deyip geçmek yerine şöyle bir formülasyon çok daha güçlü bir izlenim bırakıyor: "İki grup arasında ortalama fark 3,4 birim olup (%95 GA −1,2, 8,0; p = 0,14; Cohen's d = 0,32) istatistiksel olarak anlamlı bulunmamıştır." Tartışma bölümünde güven aralığının klinik anlamını, örneklem sınırlılığını ve gelecek çalışmalar için gereken örneklemi ele almak; negatif sonucu bir eksiklik olarak değil bir bulgu olarak konumlandırmak hem daha doğru hem de hakemler üzerinde daha olumlu. Dergi seçiminde PLOS ONE, BMJ Open ve Trials gibi dergiler negatif sonuçlara açık; Registered Reports formatında ise protokol önceden kabul edildiği için makale sonuçtan bağımsız yayınlanıyor. Tez savunmasında jüri "hipotezini doğrulayamadın" diyebiliyor; güç analizinin yapılmış olması, etki büyüklüğünün raporlanması ve metodolojinin sağlamlığı böyle bir durumda en güçlü savunma oluyor.

İpucu

Makalede "anlamlı fark bulunamamıştır" yerine "istatistiksel olarak anlamlı fark saptanmamıştır" ifadesini tercih edin. İlki farkın olmadığını ima ediyor, ikincisi kanıt yetersizliğine işaret ediyor. Küçük bir nüans ama hakemler bu ayrımı dikkatle takip ediyor.

Negatif sonuçla ne yapılacağı konusunda tereddüt yaşarsanız ya da raporlama sürecinde desteğe ihtiyaç duyarsanız, Model İstatistik CRO ekibi olarak araştırmacıya rehberlik ediyoruz. p > 0,05 bir çalışmanın sonu değil; doğru okunduğunda bir sonrakinin başlangıç noktası.

Not: Buradaki güç, etki büyüklüğü ve güven aralığı değerleri kavramı göstermek için seçilmiş örneklerdir; gerçek değerler çalışmanın verisine göre değişir.

Kullanılan kaynaklar

Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485. · DOI
Sullivan GM, Feinn R. Using effect size—or why the P value is not enough. Journal of Graduate Medical Education. 2012;4(3):279-282. · DOI

Not: Buradaki güç, etki büyüklüğü ve güven aralığı değerleri kavramı göstermek için seçilmiş örneklerdir; gerçek değerler çalışmanın verisine göre değişir.

Kullanılan kaynaklar

Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485. · DOI
Sullivan GM, Feinn R. Using effect size—or why the P value is not enough. Journal of Graduate Medical Education. 2012;4(3):279-282. · DOI

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

p > 0,05 aslında ne diyor?

Anlamsız p sonrası üç tuzak

Etki büyüklüğü neden daha çok şey anlatıyor

Güven aralığı, p'nin söylemediğini söylüyor

Post-hoc güç analizi yanılgısı

Negatif sonucu yayına hazırlamak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Doğru İstatistik Testini Nasıl Seçersiniz?

Etki Büyüklüğü Hesaplama: d, OR, NNT ve Ötesi

Güç Analizi Nedir? Kavram, Parametreler ve Formül

Araştırmanız İçin Destek Alın

p Değeri Anlamsız Çıktığında Ne Yapmalısınız?

p > 0,05 aslında ne diyor?

Anlamsız p sonrası üç tuzak

Etki büyüklüğü neden daha çok şey anlatıyor

Güven aralığı, p'nin söylemediğini söylüyor

Post-hoc güç analizi yanılgısı

Negatif sonucu yayına hazırlamak

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Doğru İstatistik Testini Nasıl Seçersiniz?

Etki Büyüklüğü Hesaplama: d, OR, NNT ve Ötesi

Güç Analizi Nedir? Kavram, Parametreler ve Formül

Araştırmanız İçin Destek Alın