ML modelleri EuroSCORE II'den daha mı doğru?

Geliştirme kohortlarında daha yüksek ayrım gücü bildirilir (havuzlanmış ML ~0,81–0,88, lojistik regresyon ~0,79–0,81); ancak bu, dış validasyon ve kalibrasyon olmadan klinik üstünlük anlamına gelmez (doi:10.3390/medicina62030606).

ML kara-kutu sorunu nedir?

Modelin bir tahmine nasıl ulaştığının şeffaf olmamasıdır; klinik güven ve hesap verebilirlik açısından bir kısıttır (doi:10.3390/medicina62030606).

Çin çalışmasında ML neden kazandı?

Kısmen yerel veriyle geliştirildiği için; çalışmanın yazarları bunun yerel kalibrasyonun Çinli hastalara daha iyi uyduğunu düşündürdüğünü belirtir — bu, her model için geçerli bir transportability noktasıdır (PMID 42184411).

O zaman geleneksel skorları bırakmalı mıyım?

Hayır. EuroSCORE II, geniş dış validasyonu, bilinen sınırları, şeffaf katsayıları ve uygulanabilirliğiyle pratik bir standart olmayı sürdürür; ML ise dış validasyon ve metodoloji açığı kapandıkça olgunlaşan bir ufuktur.

Makine Öğrenmesi Kalp Cerrahisi Skorlarını Geçer mi?

Q: ML kalibrasyon kaymasından muaf mı?

Hayır. ML modellerinin performansının da zaman içinde lojistik regresyona benzer büyüklükte kaydığı gösterilmiştir (doi:10.3390/medicina62030606).

Makine öğrenmesi (ML), kalp cerrahisi risk tahmininde son yılların en çok tartışılan başlığı. Yayımlanan karşılaştırmalar ML modellerinin geleneksel skorlardan daha yüksek ayrım gücüne ulaştığını gösteriyor; ancak bir biyoistatistik perspektifinden asıl soru, bu sayının ne kadar yüksek olduğu değil, ne kadar güvenilir ve hazır olduğudur. Klinik kullanım kararının yorumu doğal olarak cerrahi ekibin alanıdır; burada ele alınan, ML'in sayısal vaadi ile metodolojik hazırlığı arasındaki farktır.

ML ne vaat ediyor?

ML eğitimde yüksek; bağımsız testte geriler ve geleneksel skorlara yaklaşır.

Sayısal tablo, ML lehine bir ayrım üstünlüğü gösteriyor. İki meta-analiz, ML modellerinin havuzlanmış ayrım gücünü geleneksel lojistik regresyonun bir miktar üzerinde bildiriyor: 15 çalışma ve 134.230 vakalık bir analizde ML için 0,88 (%95 GA 0,83–0,93), lojistik regresyon için 0,81; 51 çalışmalık Penny-Dimri analizinde ise ML için 0,81 (%95 GA 0,78–0,84), lojistik regresyon için 0,79 (Iacobescu ve ark., 2026'da aktarıldığı şekliyle; doi:10.3390/medicina62030606). Tekil çalışmalar da benzer yöndedir: Çin'de 21.443 hastalık çok-merkezli bir CABG registry'sinde, geliştirilen XGBoost modeli bağımsız test kohortunda 0,782 AUC ile EuroSCORE II'nin (0,722) ve yerel SinoSCORE'un (0,726) önüne geçti (Zhu ve ark., 2026; PMID 42184411; doi:10.2196/80671). İlk bakışta tablo nettir; ancak istatistiksel okuma birkaç ek soru gerektirir.

"Daha yüksek AUC" hazır olmak mıdır?

İki nokta bu üstünlüğü bağlama oturtur. Birincisi, geliştirme kohortundaki performans gerçek-dünya performansını abartır; aynı XGBoost modeli eğitim kohortunda 0,850, bağımsız test kohortunda ise 0,782 AUC verdi (Zhu ve ark., 2026; doi:10.2196/80671). Bu fark, bir modelin kendi eğitildiği veride doğal olarak daha iyi göründüğünü ve dürüst ölçümün bağımsız bir kohortta yapılması gerektiğini hatırlatır — bu, ML için geleneksel skorlardan daha kritiktir, çünkü esnek algoritmalar veriye aşırı uyuma daha yatkındır. Üstelik buradaki "bağımsız test kohortu", aynı registry'den rastgele ayrılmış bir iç hold-out'tur — gerçek bir dış (harici) validasyon değildir; nitekim yazarlar gelecekte "farklı hastane düzeylerinden bağımsız test kohortlarında" doğrulama gerektiğini belirtir (Zhu ve ark., 2026; doi:10.2196/80671). Bu, ML'in dış validasyon açığını modelin kendi örneğiyle de gösterir.

İkincisi, bu karşılaştırmada EuroSCORE II'nin düşük performansı, kısmen onun Avrupa verisinden türemiş olmasından kaynaklanır. Nitekim çalışmanın kendi yazarları, sonucun "yerel olarak kalibre edilmiş modellerin Çinli hastaların risk profilini daha iyi yakalayabileceğini" düşündürdüğünü belirtir (Zhu ve ark., 2026; doi:10.2196/80671). Yani buradaki ders "ML, geleneksel skordan üstündür" değil, "yerel veriyle geliştirilmiş ya da yerel olarak kalibre edilmiş bir model, o popülasyona daha iyi uyar"dır — ki bu, ML olsun geleneksel olsun her model için geçerlidir ve bir skorun başka bir popülasyona aktarılmadan önce yerel olarak değerlendirilmesi gerektiğini bir kez daha gösterir yerel validasyon rehberi.

ML'in henüz aşamadığı engeller

ML'i klinik kullanımdan ayıran dört metodolojik engel.

ML'in vaadini pratikten ayıran şey, derleme literatürünün açıkça sıraladığı bir dizi metodolojik engeldir (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606). Birincisi dış validasyon eksikliğidir; çalışmaların önemli bir kısmı tek-merkez verisine dayanır ve harici kohortlarda doğrulanmamıştır. İkincisi yorumlanabilirliktir; modellerin bir tahmine nasıl ulaştığının şeffaf olmaması, kara-kutu etkisi olarak adlandırılır. Üçüncüsü erişilebilirliktir; bu modeller hesaplama gereksinimleri nedeniyle her kuruma uygulanabilir olmayabilir. Dördüncüsü kararlılıktır; ML modellerinin performansının da zaman içinde, lojistik regresyona benzer büyüklükte kaydığı (temporal drift) gösterilmiştir — yani ML, geleneksel skorların yaşadığı kalibrasyon kaymasından muaf değildir. Derleme bu nedenle ML için küresel kullanımdan önce dış validasyon, yorumlanabilirlik ve erişilebilirlik sorunlarının çözülmesi gerektiği sonucuna varır.

Bu çekinceler ML'e özgü bir karamsarlık değil, yeni bir aracın olgunlaşma sürecidir. Nitekim yukarıdaki Çin çalışmasının yazarları bile geliştirdikleri aracı "keşfedici/yardımcı" olarak niteler ve cerrahi karara doğrudan etkisinin ileri prospektif validasyon gerektirdiğini belirtir (Zhu ve ark., 2026; doi:10.2196/80671).

Geleneksel skorların elindeki şey: birikmiş validasyon

EuroSCORE II'nin bugünkü değeri, en yüksek ayrım gücüne sahip olması değil; yıllar içinde geniş, çok-merkezli, farklı popülasyonlarda dış validasyondan geçmiş olması, sınırlarının bilinmesi, katsayılarının şeffaf biçimde yayımlanmış olması ve herhangi bir kurumda kolayca hesaplanabilmesidir. Bir model, sınırları bilinen ve şeffaf olduğunda, kara-kutu bir modelin yüksek ama doğrulanmamış AUC'sinden klinik açıdan daha güvenli olabilir. Bu nedenle ML umut verici bir ufuk olmayı sürdürürken, EuroSCORE II günlük pratikte uygulanabilir bir standart olmaya devam ediyor EuroSCORE II rehberi. Üç skorun (EuroSCORE II, STS, ACEF) karşılaştırmasını ayrı bir yazıda ele aldık STS-PROM, EuroSCORE II ve ACEF karşılaştırması.

İstatistikçi açısından sonuç

ML'in vaadi ile hazırlığı arasındaki fark, esasen geleneksel skorların yıllar içinde geçtiği titizlikten geçmemiş olmasıdır: dış validasyon, kalibrasyonun ölçülmesi, şeffaf raporlama ve zaman içinde kararlılığın gösterilmesi. Bir ML modelinin klinik değere ulaşması, daha karmaşık bir algoritmadan değil, tam da bu doğrulama adımlarından geçer. Bu adımlar — bağımsız kohortta validasyon, kalibrasyon analizi, TRIPOD'a uygun raporlama — bir biyoistatistik işidir ve bir model geliştirme ya da doğrulama çalışmasında bu süreçte yanınızda olabiliriz biyoistatistik hizmetlerimiz. Bir skoru kendi merkezinizde nasıl valide edeceğinizi ayrı bir yazıda ele aldık yerel validasyon rehberi.

Not: Bu yazı istatistiksel yöntem ve performansı ele alır; bir modelin klinik kullanımına ilişkin karar ilgili klinik ekibin alanıdır.

Kullanılan kaynaklar

Zhu K, Lu W, Liu S, Lin H, Hou J. An In-Hospital Mortality Risk Model for Patients Undergoing Coronary Artery Bypass Grafting Based on Machine Learning: Cohort Study. JMIR Form Res. 2026;10:e80671. PMID 42184411 · DOI
Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI

ML ne vaat ediyor?

ML eğitimde yüksek; bağımsız testte geriler ve geleneksel skorlara yaklaşır.

"Daha yüksek AUC" hazır olmak mıdır?

ML'in henüz aşamadığı engeller

ML'i klinik kullanımdan ayıran dört metodolojik engel.

Geleneksel skorların elindeki şey: birikmiş validasyon

İstatistikçi açısından sonuç

Not: Bu yazı istatistiksel yöntem ve performansı ele alır; bir modelin klinik kullanımına ilişkin karar ilgili klinik ekibin alanıdır.

Kullanılan kaynaklar

Zhu K, Lu W, Liu S, Lin H, Hou J. An In-Hospital Mortality Risk Model for Patients Undergoing Coronary Artery Bypass Grafting Based on Machine Learning: Cohort Study. JMIR Form Res. 2026;10:e80671. PMID 42184411 · DOI

Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI

Makine Öğrenmesi Kalp Cerrahisi Risk Tahmininde Geleneksel Skorları Geçer mi?

ML ne vaat ediyor?

"Daha yüksek AUC" hazır olmak mıdır?

ML'in henüz aşamadığı engeller

Geleneksel skorların elindeki şey: birikmiş validasyon

İstatistikçi açısından sonuç

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

EuroSCORE II Nedir, Nasıl Hesaplanır? Kalp Cerrahisi Mortalite Riski Rehberi

STS-PROM, EuroSCORE II ve ACEF: Hangi Skoru Ne Zaman Kullanmalı?

Bir Risk Skorunu Kendi Merkezinizde Nasıl Valide Edersiniz?

Araştırmanız İçin Destek Alın

Makine Öğrenmesi Kalp Cerrahisi Risk Tahmininde Geleneksel Skorları Geçer mi?

ML ne vaat ediyor?

"Daha yüksek AUC" hazır olmak mıdır?

ML'in henüz aşamadığı engeller

Geleneksel skorların elindeki şey: birikmiş validasyon

İstatistikçi açısından sonuç

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

EuroSCORE II Nedir, Nasıl Hesaplanır? Kalp Cerrahisi Mortalite Riski Rehberi

STS-PROM, EuroSCORE II ve ACEF: Hangi Skoru Ne Zaman Kullanmalı?

Bir Risk Skorunu Kendi Merkezinizde Nasıl Valide Edersiniz?

Araştırmanız İçin Destek Alın