Yayımlanmış AUC yüksekse skoru valide etmem gerekir mi?

Evet. AUC ayrımı ölçer; modelin sizin popülasyonunuzda öngördüğü yüzdenin gerçekle örtüşmesi (kalibrasyon) ayrı bir sorudur ve yalnızca kendi verinizde ölçülebilir.

Diskriminasyon mu kalibrasyon mu daha önemli?

İkisi farklı şeyleri ölçer; bireysel risk tahmininin doğruluğu için kalibrasyon belirleyicidir ve pratikte en sık aksayan kısımdır.

Hosmer-Lemeshow testi tek başına yeterli mi?

Hayır. Örneklem büyüklüğüne aşırı duyarlıdır; kalibrasyon eğrisi, eğim/intercept ve O:E oranıyla birlikte yorumlanmalıdır.

Validasyon için kaç hasta gerekir?

Belirleyici olan toplam hasta değil, olay (ölüm) sayısıdır; dış validasyon için en az ~100 olay sık önerilen bir alt sınırdır, daha fazlası daha güvenilir kalibrasyon sağlar.

Yerel validasyon yayımlanabilir mi?

Bir skorun belirli bir popülasyondaki dış validasyonu literatürde değer gören bir çalışma türüdür; TRIPOD'a uygun raporlanması hakem sürecini kolaylaştırır.

Risk Skorunu Kendi Merkezinizde Nasıl Valide Edersiniz?

Bir makalede EuroSCORE II için 0,81 bir AUC görmek, o modelin sizin hastalarınızda da aynı isabetle çalışacağı anlamına gelmez. Risk skorları, türetildikleri popülasyonun bir fotoğrafıdır; başka bir merkezde, başka bir hasta karışımında öngörüleri gerçekten sapabilir. Bunu varsaymak yerine ölçmek mümkündür ve bu, bir biyoistatistik işidir. Aşağıda bir skorun yerel validasyonunun temel adımları ele alınmıştır.

Neden yerel validasyon?

Yayımlanmış performans ölçütleri, modelin genel davranışını özetler ama yerel geçerliği garanti etmez. İki gerçek bunu zorunlu kılar. Birincisi, kalibrasyon popülasyona bağımlıdır; aynı model bir kohortta riski fazla, bir başkasında az tahmin edebilir (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606). İkincisi, bu sapma yayımlanmış havuzlanmış sayıların içinde bile gizlidir: EuroSCORE II'nin 22 çalışmalık meta-analizinde genel gözlenen/beklenen oranı yaklaşık 1,02 iken, izole CABG altgrubunda model riski fazla tahmin etmiş (O/E 0,829), yüksek-riskli hastalarda ise düşük tahmin etmiştir (O/E 1,253) (Guida ve ark., 2014; doi:10.1016/j.jtcvs.2014.07.039). Yani tek bir "genel" sayı, sizin hasta profilinizdeki davranışı yansıtmayabilir. EuroSCORE II'nin kendi makalesi kalibrasyonu gözlenen/öngörülen (O/E) oranıyla — risk-düzeltilmiş mortalite oranı, RAMR — değerlendirir ve bir birimin kendi RAMR'ını kullanarak modeli kendi kurumuna uyarlayabileceğini belirtir (Nashef ve ark., 2012; PMID 22378855); dış validasyon literatürü de modelin yerel olarak değerlendirilmesinin önemini vurgular (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606).

Diskriminasyon: AUC neyi söyler, neyi söylemez?

Yüksek ayrım + kötü kalibrasyon en sinsi durumdur.

Diskriminasyon, modelin ölecek ve sağ kalacak hastaları doğru sıralayabilme gücüdür ve ROC eğrisi altındaki alanla (AUC; ikili sonlanımlarda c-istatistiğe eşittir) ölçülür. Yorumu sezgiseldir: 0,5 yazı-tura düzeyinde ayrım yok demektir; 0,7–0,8 arası makul, 0,8 üzeri iyi kabul edilir. AUC'nin önemli bir özelliği, sıralamaya duyarlı ama mutlak yüzdeye duyarsız olmasıdır — modelin herkese gerçeğin iki katı risk vermesi durumunda bile AUC değişmez. Bu yüzden yüksek bir AUC, modelin sizin verinizde iyi sıraladığını gösterir; öngördüğü yüzdenin doğru olduğunu göstermez. Diskriminasyon, validasyonun yalnızca yarısıdır.

Kalibrasyon: asıl iş burada

Kalibrasyon eğrisi: 45° mükemmel uyum, eğim<1 uç tahminlerin abartısı.

Kalibrasyon, modelin söylediği yüzdenin gerçekle örtüşmesidir ve pratikte en sık aksayan, en az raporlanan kısımdır. Birkaç araçla değerlendirilir.

Kalibrasyon eğrisi (calibration plot), öngörülen riske karşı gözlenen oranı çizer; ideal model 45 derecelik köşegen üzerindedir. Eğrinin eğimi (calibration slope) 1'den küçükse model uç tahminleri abartıyor, intercept sıfırdan saparsa genel bir kayma var demektir. Gözlenen/öngörülen oranı (O:E), bütünsel bir özet verir: 1'in altı genel fazla tahmini, üstü genel düşük tahmini gösterir. Hosmer-Lemeshow testi yaygın kullanılır ama sınırları bilinmelidir; büyük örneklemde önemsiz sapmaları bile anlamlı bulur, küçük örneklemde ise gerçek sapmayı kaçırabilir, dolayısıyla tek başına yeterli değildir ve kalibrasyon eğrisiyle birlikte okunmalıdır. Bir model güçlü ayrıma sahip olup kötü kalibre olabilir; bu nedenle yüksek AUC, modeli tek başına "doğrulanmış" yapmaz.

Örneklem ve eksik veri

Kalibrasyonun güvenilir ölçülmesi yeterli olay sayısı gerektirir; az sayıda ölümle çizilen bir kalibrasyon eğrisi gürültülüdür. Literatürde bir modelin dış validasyonu için en az yaklaşık 100 olay (burada ölüm) sık önerilen bir alt sınırdır; daha güçlü kalibrasyon değerlendirmesi için daha fazlası tercih edilir. Toplam hasta sayısı değil, olay sayısı belirleyicidir — düşük mortaliteli bir cerrahi tipinde bu, büyük bir örneklem anlamına gelebilir. Eksik veri ayrı bir tuzaktır: validasyon kohortunda sistematik eksik değerler, hem örneklemi hem de kalibrasyonu yanıltır; eksikliğin nasıl ele alındığı (dışlama mı, atama/imputation mı) sonucu doğrudan etkiler ve raporlanmalıdır.

Raporlama: TRIPOD

Bir validasyon çalışması, yöntemi şeffaf raporlanmadığında değerlendirilemez. Prediksiyon modeli çalışmalarının geliştirme, validasyon veya güncelleme aşamalarını şeffaf raporlamak için TRIPOD bildirisi 22 maddelik bir kontrol listesi sunar (Collins ve ark., 2015; PMID 25560714; doi:10.7326/M14-0697). Hangi sonlanımın (örneğin hastane içi mortalite) kullanıldığı, örneklem, eksik veri, diskriminasyon ve kalibrasyon ölçütlerinin hepsi bu listede yer alır ve bir yayının hakem sürecinde sıklıkla sorulan noktalardır.

Pratikte ne sağlar?

Yerel validasyon iki somut çıktı verir. Birincisi, EuroSCORE II'nin sizin popülasyonunuzdaki gerçek davranışını öğrenirsiniz; eğer O:E oranınız 1'den belirgin sapıyorsa, skoru kendi verinize göre yeniden kalibre ederek bireysel tahminleri düzeltebilirsiniz. İkincisi, bu analiz kendi başına yayımlanabilir bir çalışmadır — bir skorun belirli bir popülasyondaki dış validasyonu, literatürde değer gören bir katkıdır.

Bu adımları — diskriminasyon, kalibrasyon eğrisi, O:E oranı, uygun örneklem ve TRIPOD'a uygun raporlama — kendi merkezinizin verisiyle yürütmek istatistiksel bir iştir ve yöntem seçimi veriye bağlıdır. Bu süreçte biyoistatistik desteğimiz, çalışma tasarımından kalibrasyon analizine ve yayın hazırlığına kadar yanınızda olur biyoistatistik hizmetlerimiz. Modelin ne olduğu için EuroSCORE II rehberi, hangi hastalarda kalibrasyonunun saptığı için EuroSCORE II hangi hastalarda yanılır?; kalp cerrahisi çalışmalarında örneklem ve sağkalım analizini ise ayrı bir yazıda ele alıyoruz örneklem büyüklüğü ve sağkalım analizi.

Not: Bir risk skorunun yerel validasyonu istatistiksel bir değerlendirmedir; sonuçların klinik yorumu ilgili klinik ekibin alanıdır.

Kullanılan kaynaklar

Nashef SAM, Roques F, Sharples LD, ve ark. EuroSCORE II. Eur J Cardiothorac Surg. 2012;41(4):734-44; discussion 744-5. PMID 22378855 · DOI
Guida P, Mastro F, Scrascia G, Whitlock R, Paparella D. Performance of the European System for Cardiac Operative Risk Evaluation II: a meta-analysis of 22 studies involving 145,592 cardiac surgery procedures. J Thorac Cardiovasc Surg. 2014;148(6):3049-57. PMID 25161130 · DOI
Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI
Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): the TRIPOD statement. Ann Intern Med. 2015;162(1):55-63. PMID 25560714 · DOI

Neden yerel validasyon?

Diskriminasyon: AUC neyi söyler, neyi söylemez?

Yüksek ayrım + kötü kalibrasyon en sinsi durumdur.

Kalibrasyon: asıl iş burada

Kalibrasyon eğrisi: 45° mükemmel uyum, eğim<1 uç tahminlerin abartısı.

Kalibrasyon, modelin söylediği yüzdenin gerçekle örtüşmesidir ve pratikte en sık aksayan, en az raporlanan kısımdır. Birkaç araçla değerlendirilir.

Örneklem ve eksik veri

Raporlama: TRIPOD

Pratikte ne sağlar?

Not: Bir risk skorunun yerel validasyonu istatistiksel bir değerlendirmedir; sonuçların klinik yorumu ilgili klinik ekibin alanıdır.

Kullanılan kaynaklar

Nashef SAM, Roques F, Sharples LD, ve ark. EuroSCORE II. Eur J Cardiothorac Surg. 2012;41(4):734-44; discussion 744-5. PMID 22378855 · DOI

Guida P, Mastro F, Scrascia G, Whitlock R, Paparella D. Performance of the European System for Cardiac Operative Risk Evaluation II: a meta-analysis of 22 studies involving 145,592 cardiac surgery procedures. J Thorac Cardiovasc Surg. 2014;148(6):3049-57. PMID 25161130 · DOI

Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI

Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): the TRIPOD statement. Ann Intern Med. 2015;162(1):55-63. PMID 25560714 · DOI

Bir Risk Skorunu Kendi Merkezinizde Nasıl Valide Edersiniz?

Neden yerel validasyon?

Diskriminasyon: AUC neyi söyler, neyi söylemez?

Kalibrasyon: asıl iş burada

Örneklem ve eksik veri

Raporlama: TRIPOD

Pratikte ne sağlar?

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

EuroSCORE II Nedir, Nasıl Hesaplanır? Kalp Cerrahisi Mortalite Riski Rehberi

Kalp Cerrahisi Çalışmalarında Örneklem Büyüklüğü ve Sağkalım Analizi

Eksik Veri Analizi: MCAR, MAR, MNAR ve İmputasyon Yöntemleri

Araştırmanız İçin Doğru İstatistik Testini Nasıl Seçersiniz?

Araştırmanız İçin Destek Alın

Bir Risk Skorunu Kendi Merkezinizde Nasıl Valide Edersiniz?

Neden yerel validasyon?

Diskriminasyon: AUC neyi söyler, neyi söylemez?

Kalibrasyon: asıl iş burada

Örneklem ve eksik veri

Raporlama: TRIPOD

Pratikte ne sağlar?

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

EuroSCORE II Nedir, Nasıl Hesaplanır? Kalp Cerrahisi Mortalite Riski Rehberi

Kalp Cerrahisi Çalışmalarında Örneklem Büyüklüğü ve Sağkalım Analizi

Eksik Veri Analizi: MCAR, MAR, MNAR ve İmputasyon Yöntemleri

Araştırmanız İçin Doğru İstatistik Testini Nasıl Seçersiniz?

Araştırmanız İçin Destek Alın