Bir makalede EuroSCORE II için 0,81 bir AUC görmek, o modelin sizin hastalarınızda da aynı isabetle çalışacağı anlamına gelmez. Risk skorları, türetildikleri popülasyonun bir fotoğrafıdır; başka bir merkezde, başka bir hasta karışımında öngörüleri gerçekten sapabilir. Bunu varsaymak yerine ölçmek mümkündür ve bu, bir biyoistatistik işidir. Aşağıda bir skorun yerel validasyonunun temel adımları ele alınmıştır.
Neden yerel validasyon?
Yayımlanmış performans ölçütleri, modelin genel davranışını özetler ama yerel geçerliği garanti etmez. İki gerçek bunu zorunlu kılar. Birincisi, kalibrasyon popülasyona bağımlıdır; aynı model bir kohortta riski fazla, bir başkasında az tahmin edebilir (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606). İkincisi, bu sapma yayımlanmış havuzlanmış sayıların içinde bile gizlidir: EuroSCORE II'nin 22 çalışmalık meta-analizinde genel gözlenen/beklenen oranı yaklaşık 1,02 iken, izole CABG altgrubunda model riski fazla tahmin etmiş (O/E 0,829), yüksek-riskli hastalarda ise düşük tahmin etmiştir (O/E 1,253) (Guida ve ark., 2014; doi:10.1016/j.jtcvs.2014.07.039). Yani tek bir "genel" sayı, sizin hasta profilinizdeki davranışı yansıtmayabilir. EuroSCORE II'nin kendi makalesi kalibrasyonu gözlenen/öngörülen (O/E) oranıyla — risk-düzeltilmiş mortalite oranı, RAMR — değerlendirir ve bir birimin kendi RAMR'ını kullanarak modeli kendi kurumuna uyarlayabileceğini belirtir (Nashef ve ark., 2012; PMID 22378855); dış validasyon literatürü de modelin yerel olarak değerlendirilmesinin önemini vurgular (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606).
Diskriminasyon: AUC neyi söyler, neyi söylemez?
Diskriminasyon, modelin ölecek ve sağ kalacak hastaları doğru sıralayabilme gücüdür ve ROC eğrisi altındaki alanla (AUC; ikili sonlanımlarda c-istatistiğe eşittir) ölçülür. Yorumu sezgiseldir: 0,5 yazı-tura düzeyinde ayrım yok demektir; 0,7–0,8 arası makul, 0,8 üzeri iyi kabul edilir. AUC'nin önemli bir özelliği, sıralamaya duyarlı ama mutlak yüzdeye duyarsız olmasıdır — modelin herkese gerçeğin iki katı risk vermesi durumunda bile AUC değişmez. Bu yüzden yüksek bir AUC, modelin sizin verinizde iyi sıraladığını gösterir; öngördüğü yüzdenin doğru olduğunu göstermez. Diskriminasyon, validasyonun yalnızca yarısıdır.
Kalibrasyon: asıl iş burada
Kalibrasyon, modelin söylediği yüzdenin gerçekle örtüşmesidir ve pratikte en sık aksayan, en az raporlanan kısımdır. Birkaç araçla değerlendirilir.
Kalibrasyon eğrisi (calibration plot), öngörülen riske karşı gözlenen oranı çizer; ideal model 45 derecelik köşegen üzerindedir. Eğrinin eğimi (calibration slope) 1'den küçükse model uç tahminleri abartıyor, intercept sıfırdan saparsa genel bir kayma var demektir. Gözlenen/öngörülen oranı (O:E), bütünsel bir özet verir: 1'in altı genel fazla tahmini, üstü genel düşük tahmini gösterir. Hosmer-Lemeshow testi yaygın kullanılır ama sınırları bilinmelidir; büyük örneklemde önemsiz sapmaları bile anlamlı bulur, küçük örneklemde ise gerçek sapmayı kaçırabilir, dolayısıyla tek başına yeterli değildir ve kalibrasyon eğrisiyle birlikte okunmalıdır. Bir model güçlü ayrıma sahip olup kötü kalibre olabilir; bu nedenle yüksek AUC, modeli tek başına "doğrulanmış" yapmaz.
Örneklem ve eksik veri
Kalibrasyonun güvenilir ölçülmesi yeterli olay sayısı gerektirir; az sayıda ölümle çizilen bir kalibrasyon eğrisi gürültülüdür. Literatürde bir modelin dış validasyonu için en az yaklaşık 100 olay (burada ölüm) sık önerilen bir alt sınırdır; daha güçlü kalibrasyon değerlendirmesi için daha fazlası tercih edilir. Toplam hasta sayısı değil, olay sayısı belirleyicidir — düşük mortaliteli bir cerrahi tipinde bu, büyük bir örneklem anlamına gelebilir. Eksik veri ayrı bir tuzaktır: validasyon kohortunda sistematik eksik değerler, hem örneklemi hem de kalibrasyonu yanıltır; eksikliğin nasıl ele alındığı (dışlama mı, atama/imputation mı) sonucu doğrudan etkiler ve raporlanmalıdır.
Raporlama: TRIPOD
Bir validasyon çalışması, yöntemi şeffaf raporlanmadığında değerlendirilemez. Prediksiyon modeli çalışmalarının geliştirme, validasyon veya güncelleme aşamalarını şeffaf raporlamak için TRIPOD bildirisi 22 maddelik bir kontrol listesi sunar (Collins ve ark., 2015; PMID 25560714; doi:10.7326/M14-0697). Hangi sonlanımın (örneğin hastane içi mortalite) kullanıldığı, örneklem, eksik veri, diskriminasyon ve kalibrasyon ölçütlerinin hepsi bu listede yer alır ve bir yayının hakem sürecinde sıklıkla sorulan noktalardır.
Pratikte ne sağlar?
Yerel validasyon iki somut çıktı verir. Birincisi, EuroSCORE II'nin sizin popülasyonunuzdaki gerçek davranışını öğrenirsiniz; eğer O:E oranınız 1'den belirgin sapıyorsa, skoru kendi verinize göre yeniden kalibre ederek bireysel tahminleri düzeltebilirsiniz. İkincisi, bu analiz kendi başına yayımlanabilir bir çalışmadır — bir skorun belirli bir popülasyondaki dış validasyonu, literatürde değer gören bir katkıdır.
Bu adımları — diskriminasyon, kalibrasyon eğrisi, O:E oranı, uygun örneklem ve TRIPOD'a uygun raporlama — kendi merkezinizin verisiyle yürütmek istatistiksel bir iştir ve yöntem seçimi veriye bağlıdır. Bu süreçte biyoistatistik desteğimiz, çalışma tasarımından kalibrasyon analizine ve yayın hazırlığına kadar yanınızda olur biyoistatistik hizmetlerimiz. Modelin ne olduğu için EuroSCORE II rehberi, hangi hastalarda kalibrasyonunun saptığı için EuroSCORE II hangi hastalarda yanılır?; kalp cerrahisi çalışmalarında örneklem ve sağkalım analizini ise ayrı bir yazıda ele alıyoruz örneklem büyüklüğü ve sağkalım analizi.
Not: Bir risk skorunun yerel validasyonu istatistiksel bir değerlendirmedir; sonuçların klinik yorumu ilgili klinik ekibin alanıdır.
Kullanılan kaynaklar
- Nashef SAM, Roques F, Sharples LD, ve ark. EuroSCORE II. Eur J Cardiothorac Surg. 2012;41(4):734-44; discussion 744-5. PMID 22378855 · DOI
- Guida P, Mastro F, Scrascia G, Whitlock R, Paparella D. Performance of the European System for Cardiac Operative Risk Evaluation II: a meta-analysis of 22 studies involving 145,592 cardiac surgery procedures. J Thorac Cardiovasc Surg. 2014;148(6):3049-57. PMID 25161130 · DOI
- Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI
- Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): the TRIPOD statement. Ann Intern Med. 2015;162(1):55-63. PMID 25560714 · DOI