Altı aydır topladığınız verilerle analizi çalıştırdınız. SPSS çıktısına baktınız, p=0.12 yazıyor. "Bu kadar emek boşa mı gitti?" diye düşünmemek elde değil. Hepimizin başına gelmiştir. Ama o veri sandığınızdan çok daha değerli olabilir.
p>0.05 aslında ne diyor?
p değeri 0.05'in üstünde çıktığında istatistiğin söylediği tek bir şey var — elimdeki veri, gruplar arasında fark olduğunu gösterecek kadar güçlü bir kanıt sunmuyor. "Fark yok" demiyor. "Kanıt yetmedi" diyor. Bu ikisi birbirinden çok farklı.
Şöyle düşünmek işe yarıyor: karanlık bir odada fil arıyorsunuz. El yordamıyla dolaştınız, file dokunmadınız. Bu "odada fil yok" mu demek, yoksa "ışık yoktu, yeterince bakamadım" mı? Çoğu zaman ikincisi.
Burada iki farklı hata riski var. Tip I hata, olmayan bir farkı varmış gibi görmek — bunu alfa düzeyiyle kontrol ediyoruz. Tip II hata ise var olan bir farkı gözden kaçırmak. p>0.05 çıktığında akla gelmesi gereken ilk soru şu: acaba Tip II hata mı yaptım? Fark gerçekten var ama çalışmam onu yakalayacak güçte değil miydi?
Bu sorunun cevabı etki büyüklüğünde ve güven aralığında saklı.
Bir de şu nüans çok önemli: hakemlere "gruplar arasında fark yoktur" yazmak ciddi bir istatistiksel hata sayılıyor. Doğru ifade "istatistiksel olarak anlamlı fark saptanmamıştır" şeklinde. Küçük bir ayrıntı gibi görünse de hakemler bu farkı çok ciddiye alıyor.
Çoğumuzun düştüğü üç tuzak
p anlamlı çıkmadığında çok tanıdık birkaç refleks devreye giriyor. Danışanlarımızda da sık sık karşılaştığımız durumlar bunlar.
Alt grup avı. Genel sonuç anlamsız çıkınca "kadınlarda ayrı bakalım, 50 yaş üstünde ayrı bakalım, diyabetli grupta ayrı bakalım" arayışı başlıyor. Yeterince alt gruba bakıldığında bir yerden anlamlılık çıkıyor — ama bu gerçek bir bulgu değil, istatistiksel gürültü. Hakemler bu durumu anında fark ediyor. Mesela 200 kişilik bir çalışmada 8 farklı alt grup karşılaştırması yapıldığında, tamamen rastgele bile olsa birinden anlamlı sonuç çıkma olasılığı oldukça yüksek. Alt grup analizi gerçekten gerekliyse, önceden protokole yazılmış olması ve çoklu karşılaştırma düzeltmesi uygulanması çok kritik.
Seçici uç değer çıkarma. "Şu iki hastayı çıkarınca p=0.04 oluyor" mantığı çok cazip gelebiliyor. Ama önceden tanımlanmış bir uç değer protokolü yoksa bu yola girmemek çok daha sağlıklı. Sonuca bakıp geriye dönük veri temizliği yapmak, hakemler tarafından ciddi bir kırmızı bayrak olarak değerlendiriliyor.
Hipotezi sonradan değiştirmek. Birincil sonuç ölçütü anlamsız çıkınca ikincil bir ölçütü ana hipotezmiş gibi sunmak — buna HARKing (Hypothesizing After Results are Known) deniyor ve bilimsel sahtekarlıkla arasındaki çizgi çok ince.
Bu üç tuzağın herhangi biri, p=0.12'den çok daha büyük bir kariyer riski taşıyor.
Etki büyüklüğü neden daha çok şey anlatıyor
p değeri sadece "var mı yok mu" sorusuna yanıt veriyor. Klinik olarak önemli mi, ihmal edilebilir mi — bunu söylemiyor. Bunun için etki büyüklüğü hesaplamak gerekiyor.
Somut bir örnek üzerinden gidelim. Diyelim ki yeni bir ilacın kan basıncını ortalama 8 mmHg düşürdüğünü gördünüz ama p=0.12 çıktı. Cohen's d hesapladınız, 0.6 buluyorsunuz — orta-büyük bir etki. Sorun ilacın etkisiz olması değil, çalışmanın bu etkiyi yakalayacak kadar büyük olmaması. 45 kişiyle çalıştıysanız istatistiksel güç muhtemelen %50 civarındaydı — yani gerçek bir farkı ancak yarı yarıya yakalayabilecek bir tasarım.
Bu durumda "ilaç etkisizdir" yazmak doğru değil. "Klinik olarak anlamlı olabilecek bir etki gözlenmiş olmakla birlikte, mevcut örneklem büyüklüğü bu etkiyi istatistiksel olarak doğrulamaya yetmemiştir" çok daha isabetli bir ifade.
İlk cümle hakemi tatmin etmiyor. İkincisi ediyor.
Güven aralığı, p'nin söylemediğini söylüyor
p değeriyle birlikte güven aralığını raporlamak birçok dergide zaten zorunlu hale geldi. Aşağıdaki iki duruma bakınca nedenini anlamak kolaylaşıyor.
İkisinde de p>0.05. Ama hikayeler tamamen farklı. Güven aralığı bu farkı net biçimde ortaya koyuyor, p değeri tek başına koymuyor.
Post-hoc güç analizi yanılgısı
"Gücümüz düşükmüş, o yüzden anlamsız çıktı" diye post-hoc güç analizi yapıp tartışmaya koymak çok yaygın bir tercih. Ama burada ciddi bir sorun var — gözlenen güç, p değerinin matematiksel bir dönüşümünden ibaret. p anlamsız çıkmışsa gözlenen güç zaten düşük çıkacak. Yeni bir bilgi vermiyor, zaten bilinen şeyi farklı bir sayıyla tekrarlıyor.
İşe yarayan yöntem farklı. Gözlenen etki büyüklüğünü referans alarak "bu etkiyi %80 güçle yakalayabilmek için gelecekte kaç kişilik örneklem gerekir?" hesabı çok daha anlamlı. Bu, tartışma bölümünde gerçekten değerli bir bilgi ve hakemler de bunu görmek istiyor. Güç analizi kavramını daha yakından incelemek isterseniz, o yazıya göz atabilirsiniz.
Negatif sonucu yayına hazırlamak
Negatif sonuçlu bir çalışmayı yayınlanabilir kılan şey raporlama kalitesi.
Sonuçlar bölümünde test istatistiği, p değeri, etki büyüklüğü ve güven aralığını birlikte vermek işe yarıyor. "Anlamsız çıktı" deyip geçmek yerine mesela şöyle bir formülasyon çok daha güçlü bir izlenim bırakıyor: "İki grup arasında ortalama fark 3.4 birim olup (%95 GA: −1.2, 8.0; p=0.14; Cohen's d=0.32) istatistiksel olarak anlamlı bulunmamıştır."
Tartışma bölümünde güven aralığının klinik anlamını, örneklem sınırlılığını ve gelecek çalışmalar için gereken örneklem büyüklüğünü ele almak önemli. Negatif sonucu bir sınırlılık olarak değil, bir bulgu olarak konumlandırmak hem daha doğru hem de hakemler üzerinde daha olumlu etki bırakıyor.
Dergi seçiminde PLOS ONE, BMJ Open, Trials gibi dergiler negatif sonuçlara açıkça kapılarını açmış durumda. Registered Reports formatı da güzel bir alternatif — protokol önceden kabul edildiği için sonuçtan bağımsız olarak makale yayınlanıyor.
Tez savunmasında jüri "hipotezini doğrulayamadın" diyebiliyor. Güç analizinin yapılmış olması, etki büyüklüğünün raporlanması ve metodolojinin sağlamlığı böyle bir durumda en güçlü savunma oluyor. Deneyimlerimize göre jüri negatif sonuçtan çok metodolojik yetkinliği değerlendiriyor.
İpucu
Makalede "anlamlı fark bulunamamıştır" yerine "istatistiksel olarak anlamlı fark saptanmamıştır" ifadesini tercih etmekte fayda var. İlki farkın olmadığını ima ediyor, ikincisi kanıt yetersizliğine işaret ediyor. Küçük bir nüans ama hakemler bu ayrımı dikkatle takip ediyor.
Negatif sonuçla ne yapılacağı konusunda tereddüt yaşıyorsanız ya da raporlama sürecinde desteğe ihtiyaç duyuyorsanız, Model İstatistik CRO ekibi olarak yanınızdayız. p>0.05, bir çalışmanın sonu değil — doğru okunduğunda, bir sonrakinin başlangıç noktası.