Lojistik regresyon çalıştırdınız, OR tablosu çıktı, p değerlerini kontrol ettiniz. Ama sonra hakem soruyor: "Hosmer-Lemeshow testi sonucu nedir? Nagelkerke R² kaçtır? AUC değerini neden raporlamadınız?"
Analizi yapmak birkaç tıkla mümkün. Ama modelin uyumunu değerlendirmek, değişken seçim stratejisini gerekçelendirmek ve sonuçları doğru raporlamak — hakemlerden gelen eleştirilerin çoğu bu aşamalarda yoğunlaşıyor.
Üç lojistik regresyon türü
Doğru türü seçmek analizin ilk kritik kararı:
| Tür | Bağımlı Değişken | Örnek | Çıktı |
|---|---|---|---|
| Binary | 2 kategori | Hastalık var/yok | Odds Ratio |
| Multinomial | 3+ kategori, sırasız | Tanı tipi (A, B, C) | OR (referansa göre) |
| Ordinal | 3+ kategori, sıralı | Evre I/II/III/IV | Kümülatif OR |
Binary lojistik regresyon en yaygın kullanılan tür — sonuç evet/hayır biçiminde ikili olduğunda doğrudan uygulanıyor. Ordinal lojistik regresyonda proportional odds varsayımının Brant testi ile kontrol edilmesi gerekiyor; bu varsayım sağlanmadığında ayrı binary modeller veya multinomial lojistik regresyon düşünülmeli. İstatistik testi seçimi yazımız bu kararı sistematik hale getiriyor.
Model kurma stratejisi
Rastgele değişken ekleme-çıkarma yaklaşımı overfitting'e ve veri güdümlü hatalara yol açıyor. Sistematik bir model kurma süreci hem bilimsel güvenilirliği hem hakem değerlendirmesindeki başarıyı artırıyor.
EPV kuralı neden kritik?
Events per variable (EPV), modele alınabilecek maksimum değişken sayısını belirliyor. 200 hastanın 40'ında olay gerçekleştiyse, EPV=10 kuralına göre en fazla 4 kovaryat modele girer. Bu kural ihlal edildiğinde katsayı tahminleri dengesizleşiyor, güven aralıkları aşırı genişliyor ve model güvenilirliğini yitiriyor.
Değişken seçim yöntemleri
| Yöntem | Ne zaman? | Dikkat |
|---|---|---|
| Enter | Doğrulayıcı çalışmalar (önerilen) | Araştırmacı kontrolü, karıştırıcılar dahil |
| Backward | Aday değişken listesi uzunsa | Baskılama etkisini yakalıyor |
| Forward | Keşifsel ön tarama | Karıştırıcı atlama riski var |
| Stepwise | Genel olarak önerilmiyor | Overfitting, düşük tekrarlanabilirlik |
İpucu
Tek değişkenli analizde p<0.05 eşiği yerine p<0.20 kullanmak, çok değişkenli modelde confounding kontrolü açısından çok daha güvenli. Katı bir eşik önemli karıştırıcıları dışarıda bırakabiliyor — bu, tez ve makale savunmalarında sık eleştirilen bir nokta.
Model uyumu: dört gösterge
Hosmer-Lemeshow testi
Gözlenen ve beklenen olay sayılarını karşılaştırıyor. p>0.05 bekleniyor — bu "model veriye uyuyor" demek. p<0.05 çıktığında modelin gözden geçirilmesi gerekiyor: eksik değişken mi var, etkileşim terimi mi gerekiyor?
Önemli bir nüans: büyük örneklemlerde (n>1000) test aşırı hassaslaşıyor ve önemsiz sapmaları bile "kötü uyum" olarak işaretleyebiliyor. Tek başına yeterli değil — diğer göstergelerle birlikte yorumlanmalı.
Nagelkerke R²
Modelin açıkladığı varyans oranını yaklaşık olarak gösteriyor. Tıbbi çalışmalarda 0.20-0.40 arası kabul edilebilir. 0.15 gibi düşük bir değer modeli geçersiz kılmaz — hastalık sonuçları çok faktörlü olduğu için tek bir modelin tüm varyansı açıklaması beklenmiyor.
ROC eğrisi ve AUC
Modelin ayırt edicilik gücünü değerlendirmenin en güvenilir yolu. AUC (Area Under the Curve) tek bir sayıyla özetliyor:
| AUC | Yorum |
|---|---|
| 0.50-0.60 | Zayıf |
| 0.60-0.70 | Kabul edilebilir |
| 0.70-0.80 | İyi |
| 0.80-0.90 | Çok iyi |
| >0.90 | Mükemmel (overfitting kontrol edilmeli) |
Sınıflandırma tablosu
Doğru sınıflandırma oranını gösteriyor ama dengesiz veri setlerinde yanıltıcı olabiliyor. Bir kategoride %90 hasta varsa, "herkesi o kategoriye at" stratejisi bile %90 doğruluk veriyor. ROC eğrisi bu tuzağı aşıyor.
Çoklu doğrusallık kontrolü
Bağımsız değişkenler arasında yüksek korelasyon OR tahminlerini dengesizleştiriyor ve standart hataları şişiriyor. Multicollinearity sorunu yazımızda bu konuyu detaylı ele alıyoruz.
Korelasyon matrisinde r>0.70 olan değişken çiftleri ve VIF>5 olan değişkenler sorunlu kabul ediliyor. Çözüm: ilişkili değişkenlerden birini çıkarmak, birleşik bir değişken (indeks, toplam skor) oluşturmak veya boyut indirgeme yöntemlerini kullanmak.
Raporlama standardı
Yöntem bölümünde belirtilmesi gerekenler: lojistik regresyon türü, model kurma stratejisi ve gerekçesi, tek değişkenli ön tarama eşiği, modele alınan kovaryat listesi, çoklu doğrusallık kontrolü yöntemi, model uyumu değerlendirme yöntemleri ve kullanılan yazılım.
Sonuçlar bölümünde: crude ve adjusted OR tabloları, %95 güven aralıkları, p değerleri, Hosmer-Lemeshow, Nagelkerke R² ve AUC.
Örnek raporlama: "Çok değişkenli lojistik regresyon analizinde sigara kullanımı (adjusted OR=3.12; %95 GA: 1.85-5.26; p<0.001), diyabet varlığı (adjusted OR=2.41; %95 GA: 1.42-4.09; p=0.001) ve her 10 yıllık yaş artışı (adjusted OR=1.68; %95 GA: 1.22-2.31; p=0.002) bağımsız risk faktörleri olarak belirlendi. Model iyi uyum gösterdi (Hosmer-Lemeshow p=0.556, Nagelkerke R²=0.24, AUC=0.78)."
OR'un ne anlama geldiği, CI'nın nasıl yorumlanacağı ve sık yapılan hatalar için lojistik regresyon OR ve CI yorumlama yazımız tamamlayıcı bir kaynak. p değeri anlamsız çıktığında ne yapılacağı da bu sürecin doğal bir parçası.
Model İstatistik ekibi olarak lojistik regresyon modelinizin kurulmasından uyum değerlendirmesine, raporlamadan hakem yanıtlarına kadar tüm süreçte destek sunmaktan memnuniyet duyarız.