EuroSCORE II günlük pratikte çoğu zaman tek bir yüzdeyle anılır; oysa o yüzdenin ne kadar güvenilir olduğu, hangi hastada kullanıldığına bağlıdır. Bu yazı skoru bir biyoistatistik perspektifinden — sayının ne söylediği ve ne ölçüde güvenilir olduğu açısından — ele alıyor; cerrahi endikasyon ve tekniğin yorumu doğal olarak cerrahi ekibin alanıdır. Modelin zayıf noktası da çoğu zaman sanıldığı yerde, ayrım gücünde değildir; asıl mesele, öngörülen riskin gerçekte gözlenenle ne ölçüde örtüştüğü, yani kalibrasyondur.
Ayrım mı, kalibrasyon mu?
İki kavramı ayırmak bu yazının çıkış noktası. Ayrım (diskriminasyon), modelin ölecek ve sağ kalacak hastaları doğru sıralayabilme gücüdür ve ROC eğrisi altındaki alanla (AUC) ölçülür. Kalibrasyon ise modelin söylediği yüzdenin gerçekle uyumudur: %5 dediği hastaların gerçekten yaklaşık %5'i mi kaybediliyor? Bir model hastaları iyi sıralayıp (yüksek AUC) yine de sistematik biçimde fazla ya da az tahmin edebilir. İstatistiksel olarak söylenebilecek olan şudur: yüksek bir AUC, modeli tek başına "doğrulanmış" yapmaz.
EuroSCORE II'nin ayrım gücü makuldür. Orijinal validasyon altkümesinde AUC 0,8095 olarak bildirildi (Nashef ve ark., 2012; PMID 22378855). Skorun yayımından iki yıl sonra yapılan, 22 çalışma ve 145.592 işlemi kapsayan bir meta-analizde havuzlanmış AUC 0,792 idi (%95 GA 0,773–0,811; Guida ve ark., 2014; doi:10.1016/j.jtcvs.2014.07.039); daha güncel çalışmaların havuzlanmış değeri de yaklaşık 0,8 düzeyinde aktarılır (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606). Gerçek dünyada bu sayı daha ölçülü olabilir: gerçek-dünya izole CABG kohortunda EuroSCORE II'nin 4 yıllık mortalite için c-istatistiği 0,73 olarak rapor edildi — burada model yalnızca karşılaştırma koluydu ve çalışmanın kendisi bir SYNTAX Score II validasyonuydu (Angleitner ve ark., 2025; doi:10.1186/s13019-025-03572-x). Bu değerlerin hiçbiri kötü değil; ayrım, modelin görece güçlü tarafıdır. Sorun, öngörülen yüzdenin gerçekle örtüşmesinde başlar.
Kalibrasyon neden bozulur?
EuroSCORE II 2010 yılının verisinden türetildi ve sonlanımı hastanın ameliyat olduğu hastanedeki mortalitedir — 30 günlük mortalite değil. Nashef ve arkadaşları, modeli yayımlarken eski additive ve logistic EuroSCORE'ların 2010 verisinde mortaliteyi belirgin biçimde fazla tahmin ettiğini gösterdi (gerçek %3,9'a karşı additive %5,8, logistic %7,57) ve EuroSCORE II tam da bu nedenle yeniden kalibre edildi (PMID 22378855). Ancak EuroSCORE II'nin kendi kalibrasyon davranışı tek yönlü değildir ve altgruba göre değişir: 22 çalışmalık meta-analizde genel gözlenen/beklenen oranı yaklaşık 1,02 (iyi kalibre) iken, izole CABG altgrubunda model riski fazla tahmin etti (O/E 0,829; %95 GA 0,677–0,982) ve yüksek-riskli hastalarda düşük tahmin etti (O/E 1,253) (Guida ve ark., 2014; doi:10.1016/j.jtcvs.2014.07.039). Bu, istatistiksel olarak beklenen bir tablodur: popülasyon, bakım ve altgrup değiştikçe kalibrasyon kayar. Iacobescu ve arkadaşları da modelin çoğunlukla mortaliteyi düşük tahmin etmekle eleştirildiğini (O/E > 1,00), bazı kohortlarda ise fazla tahmin ettiğini (O/E < 1,00) bildiriyor (doi:10.3390/medicina62030606).
Bu değişkenliğin istatistiksel kökeni, modelin yapısında yatar: kırılganlık (frailty), beslenme durumu ve karaciğer fonksiyonu gibi sonucu etkilediği bildirilen değişkenler modelde yer almaz. Aşağıdaki altgruplar, aslında aynı istatistiksel olgunun — kalibrasyonun popülasyona bağımlı olmasının — birer örneğidir. Her biri belirli kohortlardaki gözlemdir; tek bir merkezin sonucu evrensel bir yargıya dönüştürülmemelidir.
Aktif endokardit: bir kalibrasyon sapması örneği
Enfektif endokardit (IE) cerrahisi, modelin sapmasının en görünür olduğu alanlardan biri olarak bildiriliyor; çünkü IE'ye özgü belirleyiciler — etken patojen, perivalvüler abse, protez kapak tutulumu — modelde bulunmuyor. Tek merkezli, 689 hastalık bir IE cerrahisi serisinde (operatif mortalite %10,6), EuroSCORE II dahil yaygın jenerik skorların operatif riski fazla tahmin ettiği, IE'ye özgü değişken içeren skorların genel olarak daha iyi performans gösterdiği ve en yüksek ayrımı RISK-E skorunun verdiği rapor edildi (AUC 0,742) (Mikus ve ark., 2025; doi:10.2147/CLEP.S566997). Aynı çalışma, kötü kalibre bir risk tahmininin doğrudan klinik sonuç doğurabileceğini — operatif riskin fazla tahmininin gereksiz biçimde cerrahiden caydırabileceğini — belirtiyor. İstatistiksel okuma şu kadarını söyler: model bu altgrupta sistematik bir yön sapması göstermektedir. Bu yüzdenin somut bir hastada karara nasıl yansıması gerektiği ise cerrahi ekibin değerlendirme alanıdır.
Torasik aort cerrahisi: prosedüre özgü kalibrasyon farkı
Torasik aort cerrahisinde de prosedüre özgü araçların kalibrasyonunun daha güvenilir olduğu bildiriliyor. 829 hastalık bir torasik aort serisinde (operatif mortalite %4,6), Surgical Outcome Risk Tool Versiyon 2'nin (SORT V2) hem iyi ayrım (AUC 0,82) hem de SORT V1 ve EuroSCORE II'den daha güvenilir kalibrasyon gösterdiği; diseksiyon altgrubunda en yüksek ayrımı GERAADA'nın verdiği (AUC 0,79) rapor edildi (Magouliotis ve ark., 2025; doi:10.1053/j.jvca.2025.10.034). Çalışmanın yazarları, EuroSCORE II ve GERAADA'nın özgün kalibrasyon popülasyonlarının farklı olduğunu da not ediyor. Buradan çıkarılabilecek istatistiksel gözlem, güncel ve prosedüre özgü bir veride geliştirilmiş bir aracın öngörüsünün gerçekle daha iyi örtüşebileceğidir; modelin küresel ve çok-prosedürlü yapısı, onu pratik kılarken belirli bir cerrahi tipinde en iyi kalibre seçenek olmaktan uzaklaştırabilir.
İleri yaş ve kırılganlık: eksik değişken sorunu
EuroSCORE II'de kırılganlığı doğrudan ölçen bir değişken yoktur; istatistiksel terimle bu, bir eksik-değişken (omitted-variable) sınırıdır. Sonucu etkilediği bildirilen kas kütlesi, fonksiyonel kapasite ve beslenme durumu gibi etkenler modele girmediğinden, bu boyutta ayrışan hastalarda tahminin gerçekle örtüşmesi zayıflayabilir. Güncel kapak kılavuzu da bu sınırı kabul ediyor: 2021 ESC/EACTS Kalp Kapak Hastalığı Kılavuzu, EuroSCORE II ve STS-PROM'un hastaların çoğunda iyi kalibre olduğunu, ancak yüksek riskli hastalarda daha az doğru olabileceğini belirtiyor ve kırılganlığın değerlendirmedeki rolünü ayrıca öne çıkarıyor (Vahanian ve ark., 2022; doi:10.1093/eurheartj/ehab395). Bu açığın klinik olarak nasıl kapatılacağı — ek bir kırılganlık değerlendirmesinin nasıl konumlanacağı — cerrahi ve geriatrik değerlendirmenin alanıdır; istatistiksel katkı, açığın modelde yapısal olduğunu görünür kılmaktır.
Redo ve acil: belirsizliğin genişlediği uçlar
Tekrar (redo) cerrahi ve acil/kurtarma girişimleri, modelin görece az hastayla temsil edilen ve heterojen olan uçlarıdır. EuroSCORE II bu durumları katsayılarıyla içerir; ancak az sayıda ve değişken hastadan oluşan altgruplarda nokta tahmin etrafındaki belirsizlik genişler. İstatistiksel olarak bu, verilen yüzdenin bir olasılık aralığının orta noktası olarak okunmasını anlamlı kılar. Aynı çekince tüm hastalar için geçerlidir: "%8", benzer hastaların ortalama tahmini riskidir; bireysel sonucun kesinliği değil.
Sayıyı yerel olarak kalibre etmek
Bu sınırların hiçbiri skoru terk etmeyi gündeme getirmez; sayıyı sınırlarıyla okumayı gündeme getirir. İstatistiksel açıdan iki şey söylenebilir. Birincisi, sayının güvenilirliği altgruba göre değişir; endokardit, torasik aort, ileri yaş/kırılganlık ve redo/acil hastalarında EuroSCORE II yüzdesi, o gruba özgü kanıtla birlikte (kimi durumda prosedüre özgü bir skorun rapor edilen performansıyla) tartılabilir. İkincisi, modelin orijinal makalede önerdiği yerel kalibrasyon yöntemi vardır: kurumun kendi gözlenen/öngörülen oranıyla (O:E; risk-düzeltilmiş mortalite oranı) skoru uyarlamak (PMID 22378855). Bir merkezin O:E oranının 1'den belirgin sapması, EuroSCORE II'nin o popülasyonda sistematik biçimde fazla ya da az tahmin ettiğine işaret eder ve bireysel tahminler buna göre düzeltilebilir.
Kendi merkezinde bir skorun ayrımını ve kalibrasyonunu nasıl ölçeceğini — AUC, kalibrasyon eğrisi, Hosmer-Lemeshow ve O:E oranı dahil — ayrı bir yazıda adım adım ele alıyoruz yerel validasyon rehberi. Modelin ne olduğu ve nasıl hesaplandığı için EuroSCORE II rehberi; hesaplama dökümünü şeffaf gösteren araç için EuroSCORE II hesaplayıcısı.
Not: EuroSCORE II bir risk tahminidir; klinik karar desteğidir, tanı veya tedavi kararının yerine geçmez.
Kullanılan kaynaklar
- Nashef SAM, Roques F, Sharples LD, ve ark. EuroSCORE II. Eur J Cardiothorac Surg. 2012;41(4):734-44; discussion 744-5. PMID 22378855 · DOI
- Guida P, Mastro F, Scrascia G, Whitlock R, Paparella D. Performance of the European System for Cardiac Operative Risk Evaluation II: a meta-analysis of 22 studies involving 145,592 cardiac surgery procedures. J Thorac Cardiovasc Surg. 2014;148(6):3049-57. PMID 25161130 · DOI
- Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI
- Mikus E, Sangiorgi D, Calvi S, ve ark. Enhanced Risk Stratification in Infective Endocarditis Surgery. Clin Epidemiol. 2025;17:1087-1097. PMID 41450894 · DOI
- Magouliotis DE, Sicouri S, Baudo M, ve ark. Optimizing Risk Prediction: SORT Versions 1 and 2 in Aortic Surgery. J Cardiothorac Vasc Anesth. 2026 (çevrimiçi 2025). PMID 41271501 · DOI
- Angleitner P, Abfalterer H, Kaider A, ve ark. External validation of SYNTAX score II in a real-world cohort undergoing coronary artery bypass grafting. J Cardiothorac Surg. 2025. PMID 40775387 · DOI
- Vahanian A, Beyersdorf F, Praz F, ve ark. 2021 ESC/EACTS Guidelines for the management of valvular heart disease. Eur Heart J. 2022;43(7):561-632. DOI