Hosmer-Lemeshow p<0.05 çıktı, model kötü mü?

Model-veri uyumunun yetersiz olduğuna işaret ediyor ama tek başına yeterli bir değerlendirme değil. Büyük örneklemlerde test aşırı hassaslaşıp önemsiz sapmaları bile yakalayabiliyor. Modelde eksik değişken olup olmadığı, fonksiyonel formun doğruluğu ve etkileşim terimi gerekliliği gözden geçirilmeli. AUC ve Nagelkerke R² ile birlikte yorumlanmalı.

Nagelkerke R²=0.15 çıktı, bu kötü mü?

Mutlaka değil. Sağlık bilimlerinde çok faktörlü hastalıklarda tek bir modelin tüm varyansı açıklaması beklenmiyor. Modelin amacına göre değerlendirilmeli: tahmin modeli için düşük olabilir ama belirli risk faktörlerinin bağımsız etkisini göstermek amaçlanıyorsa düşük R² modeli geçersiz kılmıyor. AUC>0.70 ise model klinik olarak yararlı ayırt edicilik sağlıyor olabilir.

Lojistik regresyon ile Cox regresyon arasında nasıl seçim yapılır?

Sonuç değişkeni basit ikili bir değişkense (postoperatif komplikasyon var/yok) lojistik regresyon uygun. Olaya kadar geçen süre anlamlıysa ve sansürleme varsa (nükse kadar geçen süre gibi) Cox regresyon tercih edilmeli. Lojistik regresyon zaman boyutunu dikkate almıyor.

Tek değişkenli analizde anlamlı olan değişken çok değişkenli modelde anlamsız çıktı. Neden?

Genellikle confounding. Tek değişkenli analizde anlamlı bulunan değişkenin etkisi aslında modele eklenen başka bir değişkenin etkisi olabiliyor. Yaş ve komorbidite birlikte modele girdiğinde yaşın etkisi azalabiliyor — çünkü yaş komorbiditeler aracılığıyla etki gösteriyor. Bu bir hata değil, çok değişkenli analizin bağımsız etkileri ortaya koyma gücü.

Modele kaç değişken koyabilirim?

EPV kuralı belirleyici. Olayın az gözlenen kategorisindeki sayıya bakılır: EPV=10 kuralıyla 40 olay varsa en fazla 4, EPV=15 ile en fazla 2-3 değişken. Bu sınırı aşmak overfitting'e ve güvenilmez katsayı tahminlerine yol açıyor.

AUC>0.90 çıktı, harika mı?

Dikkatli olmakta fayda var — AUC>0.90 overfitting işareti olabiliyor. Eğitim setindeki AUC ile doğrulama setindeki AUC arasında büyük fark varsa model aşırı uyum gösteriyor. Çapraz doğrulama veya bootstrap ile iç doğrulama yapılması öneriliyor.

Etkileşim (interaction) terimi ne zaman modele eklenir?

Bir bağımsız değişkenin etkisinin başka bir değişkenin düzeyine göre farklılaşıp farklılaşmadığı test edilir. Örneğin tedavi etkisinin cinsiyete göre değişip değişmediği. Etkileşim terimleri hipotez güdümlü olmalı — rastgele tüm ikili etkileşimleri denemek çoklu karşılaştırma sorununa ve overfitting'e yol açıyor.

Lojistik Regresyon: Model Kurma ve Uyum Değerlendirme

Q: Hosmer-Lemeshow p<0.05 çıktı, model kötü mü?

Model-veri uyumunun yetersiz olduğuna işaret ediyor ama tek başına yeterli bir değerlendirme değil. Büyük örneklemlerde test aşırı hassaslaşıp önemsiz sapmaları bile yakalayabiliyor. Modelde eksik değişken olup olmadığı, fonksiyonel formun doğruluğu ve etkileşim terimi gerekliliği gözden geçirilmeli. AUC ve Nagelkerke R² ile birlikte yorumlanmalı.

Q: Nagelkerke R²=0.15 çıktı, bu kötü mü?

Mutlaka değil. Sağlık bilimlerinde çok faktörlü hastalıklarda tek bir modelin tüm varyansı açıklaması beklenmiyor. Modelin amacına göre değerlendirilmeli: tahmin modeli için düşük olabilir ama belirli risk faktörlerinin bağımsız etkisini göstermek amaçlanıyorsa düşük R² modeli geçersiz kılmıyor. AUC>0.70 ise model klinik olarak yararlı ayırt edicilik sağlıyor olabilir.

Lojistik regresyon analizini çalıştırmak birkaç tıkla mümkün; ama modelin uyumunu değerlendirmek, değişken seçimini gerekçelendirmek ve sonuçları doğru raporlamak apayrı bir aşama. Hakemlerden gelen eleştirilerin çoğu da tam burada yoğunlaşıyor: "Hosmer-Lemeshow testi sonucu nedir? Nagelkerke R² kaçtır? AUC değerini neden raporlamadınız?"

Bu yazı, lojistik regresyon modelini kurma ve doğrulama tarafına odaklanıyor; çıktıdaki odds ratio ile güven aralığını okuma tarafını ise lojistik regresyon OR ve CI yorumlama yazımız ele alıyor.

Üç lojistik regresyon türü

Doğru türü seçmek, analizin ilk kritik kararı:

Tür	Bağımlı değişken	Örnek	Çıktı
Binary	2 kategori	Hastalık var/yok	Odds ratio
Multinomial	3+ kategori, sırasız	Tanı tipi (A, B, C)	OR (referansa göre)
Ordinal	3+ kategori, sıralı	Evre I/II/III/IV	Kümülatif OR

Binary lojistik regresyon en yaygın tür — sonuç evet/hayır biçiminde ikili olduğunda doğrudan uygulanıyor. Ordinal lojistik regresyonda proportional odds (orantılı odds) varsayımının Brant testiyle kontrol edilmesi gerekiyor; sağlanmadığında ayrı binary modeller ya da multinomial lojistik regresyon düşünülmeli. Türü doğru belirlemek için istatistik testi seçimi yazımız kararı sistematik hale getiriyor.

Model kurma stratejisi

Rastgele değişken ekleme-çıkarma yaklaşımı overfitting'e ve veri güdümlü hatalara yol açıyor. Sistematik bir model kurma süreci hem bilimsel güvenilirliği hem de hakem değerlendirmesindeki başarıyı artırıyor.

EPV kuralı neden kritik?

Olay başına değişken sayısı (events per variable, EPV), modele alınabilecek maksimum kovaryat sayısını belirliyor. 200 hastanın 40'ında olay gerçekleştiyse, EPV = 10 kuralına göre modele en fazla 4 kovaryat girer. Peduzzi ve arkadaşlarının (1996) simülasyon çalışması, EPV 10'un altına indiğinde katsayı tahminlerinin yanlılaştığını, güven aralıklarının doğru kapsama vermediğini ve hatta yanlış yönde anlamlı sonuçların arttığını gösteriyor; 10 ve üzerinde ise ciddi sorun ortaya çıkmıyor. Bu yüzden EPV, model karmaşıklığının üst sınırını belirleyen ilk kontrol.

Değişken seçim yöntemleri

Yöntem	Ne zaman?	Dikkat
Enter	Doğrulayıcı çalışmalar (önerilen)	Araştırmacı kontrolü, karıştırıcılar dahil
Backward	Aday değişken listesi uzunsa	Baskılama etkisini yakalıyor
Forward	Keşifsel ön tarama	Karıştırıcı atlama riski var
Stepwise	Genel olarak önerilmiyor	Overfitting, düşük tekrarlanabilirlik

İpucu

Tek değişkenli analizde p<0,05 yerine p<0,20 eşiği kullanmak, çok değişkenli modelde confounding kontrolü açısından çok daha güvenli. Katı bir eşik önemli karıştırıcıları dışarıda bırakabiliyor — tez ve makale savunmalarında sık eleştirilen bir nokta.

Model uyumu: dört gösterge

Hosmer-Lemeshow testi

Gözlenen ve beklenen olay sayılarını karşılaştırıyor; burada p>0,05 beklenir ve bu "model veriye uyuyor" demek. p<0,05 çıktığında modelin gözden geçirilmesi gerekiyor: eksik değişken mi var, etkileşim terimi mi gerekiyor? Önemli bir nüans: büyük örneklemlerde (n>1000) test aşırı hassaslaşıp önemsiz sapmaları bile "kötü uyum" olarak işaretleyebiliyor; bu yüzden tek başına yeterli değil, diğer göstergelerle birlikte yorumlanmalı.

Nagelkerke R²

Modelin açıkladığı varyans oranını yaklaşık gösteriyor. Tıbbi çalışmalarda 0,20-0,40 arası kabul edilebilir; 0,15 gibi düşük bir değer modeli geçersiz kılmaz, çünkü hastalık sonuçları çok faktörlü olduğundan tek bir modelin tüm varyansı açıklaması beklenmiyor.

ROC eğrisi ve AUC

Modelin ayırt edicilik gücünü değerlendirmenin en güvenilir yolu. AUC (eğri altındaki alan), modelin rastgele bir hastayı sağlıklı bir bireyden doğru sıralama olasılığını tek bir sayıyla özetliyor:

Eğri sol-üst köşeye ne kadar yakınsa AUC o kadar yüksek, ayırt edicilik o kadar iyi.

AUC	Yorum
0,50	Şans düzeyi (ayrım yok)
0,50-0,70	Zayıf–sınırda
0,70-0,80	Kabul edilebilir
0,80-0,90	Mükemmel
>0,90	Olağanüstü (overfitting kontrol edilmeli)

Sınıflandırma tablosu

Doğru sınıflandırma oranını gösteriyor ama dengesiz veri setlerinde yanıltıcı olabiliyor: bir kategoride hastaların %90'ı varsa, "herkesi o kategoriye at" stratejisi bile %90 doğruluk verir. ROC eğrisi bu tuzağı aşıyor.

Çoklu doğrusallık kontrolü

Bağımsız değişkenler arasında yüksek korelasyon, OR tahminlerini dengesizleştirip standart hataları şişiriyor. Korelasyon matrisinde r>0,80 olan değişken çiftleri ve VIF>10 olan değişkenler sorunlu kabul ediliyor (kimi kaynaklar VIF>5'i uyarı eşiği alıyor). Çözüm: ilişkili değişkenlerden birini çıkarmak, birleşik bir değişken (indeks, toplam skor) oluşturmak veya boyut indirgeme kullanmak. Ayrıntıyı multicollinearity sorunu yazımızda ele aldık.

Raporlama standardı

Yöntem bölümünde belirtilmesi gerekenler: lojistik regresyon türü, model kurma stratejisi ve gerekçesi, tek değişkenli ön tarama eşiği, modele alınan kovaryat listesi, çoklu doğrusallık kontrolü, model uyumu yöntemleri ve kullanılan yazılım. Sonuçlar bölümünde ise crude ve adjusted OR tabloları, %95 güven aralıkları, p değerleri, Hosmer-Lemeshow, Nagelkerke R² ve AUC yer almalı.

Örnek raporlama: "Çok değişkenli lojistik regresyon analizinde sigara kullanımı (adjusted OR = 3,12; %95 GA 1,85-5,26; p<0,001), diyabet varlığı (adjusted OR = 2,41; %95 GA 1,42-4,09; p=0,001) ve her 10 yıllık yaş artışı (adjusted OR = 1,68; %95 GA 1,22-2,31; p=0,002) bağımsız risk faktörleri olarak belirlendi. Model iyi uyum gösterdi (Hosmer-Lemeshow p=0,556; Nagelkerke R² = 0,24; AUC = 0,78)."

OR'un ne anlama geldiği ve güven aralığının nasıl okunacağı için lojistik regresyon OR ve CI yorumlama yazımız tamamlayıcı bir kaynak; p değeri anlamsız çıktığında ne yapılacağı da bu sürecin doğal bir parçası. Model İstatistik ekibi olarak lojistik regresyon modelinizin kurulmasından uyum değerlendirmesine ve raporlamaya kadar her aşamada rehberlik ediyoruz.

Not: Buradaki eşikler (EPV, AUC bantları, Nagelkerke aralığı) yaygın kabul gören yol gösterici değerlerdir; kesin karar çalışmanın verisi, sonuç sıklığı ve tasarımı üzerinden verilir.

Kullanılan kaynaklar

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology. 1996;49(12):1373-1379. · DOI
Hosmer DW, Lemeshow S, Sturdivant RX. Applied Logistic Regression. 3. baskı. Hoboken, NJ: Wiley; 2013.

Üç lojistik regresyon türü

Doğru türü seçmek, analizin ilk kritik kararı:

Tür	Bağımlı değişken	Örnek	Çıktı
Binary	2 kategori	Hastalık var/yok	Odds ratio
Multinomial	3+ kategori, sırasız	Tanı tipi (A, B, C)	OR (referansa göre)
Ordinal	3+ kategori, sıralı	Evre I/II/III/IV	Kümülatif OR

Yöntem	Ne zaman?	Dikkat
Enter	Doğrulayıcı çalışmalar (önerilen)	Araştırmacı kontrolü, karıştırıcılar dahil
Backward	Aday değişken listesi uzunsa	Baskılama etkisini yakalıyor
Forward	Keşifsel ön tarama	Karıştırıcı atlama riski var
Stepwise	Genel olarak önerilmiyor	Overfitting, düşük tekrarlanabilirlik

İpucu

AUC	Yorum
0,50	Şans düzeyi (ayrım yok)
0,50-0,70	Zayıf–sınırda
0,70-0,80	Kabul edilebilir
0,80-0,90	Mükemmel
>0,90	Olağanüstü (overfitting kontrol edilmeli)

Not: Buradaki eşikler (EPV, AUC bantları, Nagelkerke aralığı) yaygın kabul gören yol gösterici değerlerdir; kesin karar çalışmanın verisi, sonuç sıklığı ve tasarımı üzerinden verilir.

Kullanılan kaynaklar

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology. 1996;49(12):1373-1379. · DOI
Hosmer DW, Lemeshow S, Sturdivant RX. Applied Logistic Regression. 3. baskı. Hoboken, NJ: Wiley; 2013.

Lojistik Regresyon Sonuçlarını Doğru Yorumlama

Üç lojistik regresyon türü

Model kurma stratejisi

EPV kuralı neden kritik?

Değişken seçim yöntemleri

Model uyumu: dört gösterge

Hosmer-Lemeshow testi

Nagelkerke R²

ROC eğrisi ve AUC

Sınıflandırma tablosu

Çoklu doğrusallık kontrolü

Raporlama standardı

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Lojistik Regresyon: Odds Ratio ve %95 Güven Aralığı Yorumlama

Çoklu Bağlantı (Multicollinearity): Regresyon Modeli Neden Çöker?

Doğru İstatistik Testini Nasıl Seçersiniz?

Araştırmanız İçin Destek Alın

Lojistik Regresyon Sonuçlarını Doğru Yorumlama

Üç lojistik regresyon türü

Model kurma stratejisi

EPV kuralı neden kritik?

Değişken seçim yöntemleri

Model uyumu: dört gösterge

Hosmer-Lemeshow testi

Nagelkerke R²

ROC eğrisi ve AUC

Sınıflandırma tablosu

Çoklu doğrusallık kontrolü

Raporlama standardı

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Lojistik Regresyon: Odds Ratio ve %95 Güven Aralığı Yorumlama

Çoklu Bağlantı (Multicollinearity): Regresyon Modeli Neden Çöker?

Doğru İstatistik Testini Nasıl Seçersiniz?

Araştırmanız İçin Destek Alın