Makine öğrenmesi (ML), kalp cerrahisi risk tahmininde son yılların en çok tartışılan başlığı. Yayımlanan karşılaştırmalar ML modellerinin geleneksel skorlardan daha yüksek ayrım gücüne ulaştığını gösteriyor; ancak bir biyoistatistik perspektifinden asıl soru, bu sayının ne kadar yüksek olduğu değil, ne kadar güvenilir ve hazır olduğudur. Klinik kullanım kararının yorumu doğal olarak cerrahi ekibin alanıdır; burada ele alınan, ML'in sayısal vaadi ile metodolojik hazırlığı arasındaki farktır.
ML ne vaat ediyor?
Sayısal tablo, ML lehine bir ayrım üstünlüğü gösteriyor. İki meta-analiz, ML modellerinin havuzlanmış ayrım gücünü geleneksel lojistik regresyonun bir miktar üzerinde bildiriyor: 15 çalışma ve 134.230 vakalık bir analizde ML için 0,88 (%95 GA 0,83–0,93), lojistik regresyon için 0,81; 51 çalışmalık Penny-Dimri analizinde ise ML için 0,81 (%95 GA 0,78–0,84), lojistik regresyon için 0,79 (Iacobescu ve ark., 2026'da aktarıldığı şekliyle; doi:10.3390/medicina62030606). Tekil çalışmalar da benzer yöndedir: Çin'de 21.443 hastalık çok-merkezli bir CABG registry'sinde, geliştirilen XGBoost modeli bağımsız test kohortunda 0,782 AUC ile EuroSCORE II'nin (0,722) ve yerel SinoSCORE'un (0,726) önüne geçti (Zhu ve ark., 2026; PMID 42184411; doi:10.2196/80671). İlk bakışta tablo nettir; ancak istatistiksel okuma birkaç ek soru gerektirir.
"Daha yüksek AUC" hazır olmak mıdır?
İki nokta bu üstünlüğü bağlama oturtur. Birincisi, geliştirme kohortundaki performans gerçek-dünya performansını abartır; aynı XGBoost modeli eğitim kohortunda 0,850, bağımsız test kohortunda ise 0,782 AUC verdi (Zhu ve ark., 2026; doi:10.2196/80671). Bu fark, bir modelin kendi eğitildiği veride doğal olarak daha iyi göründüğünü ve dürüst ölçümün bağımsız bir kohortta yapılması gerektiğini hatırlatır — bu, ML için geleneksel skorlardan daha kritiktir, çünkü esnek algoritmalar veriye aşırı uyuma daha yatkındır. Üstelik buradaki "bağımsız test kohortu", aynı registry'den rastgele ayrılmış bir iç hold-out'tur — gerçek bir dış (harici) validasyon değildir; nitekim yazarlar gelecekte "farklı hastane düzeylerinden bağımsız test kohortlarında" doğrulama gerektiğini belirtir (Zhu ve ark., 2026; doi:10.2196/80671). Bu, ML'in dış validasyon açığını modelin kendi örneğiyle de gösterir.
İkincisi, bu karşılaştırmada EuroSCORE II'nin düşük performansı, kısmen onun Avrupa verisinden türemiş olmasından kaynaklanır. Nitekim çalışmanın kendi yazarları, sonucun "yerel olarak kalibre edilmiş modellerin Çinli hastaların risk profilini daha iyi yakalayabileceğini" düşündürdüğünü belirtir (Zhu ve ark., 2026; doi:10.2196/80671). Yani buradaki ders "ML, geleneksel skordan üstündür" değil, "yerel veriyle geliştirilmiş ya da yerel olarak kalibre edilmiş bir model, o popülasyona daha iyi uyar"dır — ki bu, ML olsun geleneksel olsun her model için geçerlidir ve bir skorun başka bir popülasyona aktarılmadan önce yerel olarak değerlendirilmesi gerektiğini bir kez daha gösterir yerel validasyon rehberi.
ML'in henüz aşamadığı engeller
ML'in vaadini pratikten ayıran şey, derleme literatürünün açıkça sıraladığı bir dizi metodolojik engeldir (Iacobescu ve ark., 2026; doi:10.3390/medicina62030606). Birincisi dış validasyon eksikliğidir; çalışmaların önemli bir kısmı tek-merkez verisine dayanır ve harici kohortlarda doğrulanmamıştır. İkincisi yorumlanabilirliktir; modellerin bir tahmine nasıl ulaştığının şeffaf olmaması, kara-kutu etkisi olarak adlandırılır. Üçüncüsü erişilebilirliktir; bu modeller hesaplama gereksinimleri nedeniyle her kuruma uygulanabilir olmayabilir. Dördüncüsü kararlılıktır; ML modellerinin performansının da zaman içinde, lojistik regresyona benzer büyüklükte kaydığı (temporal drift) gösterilmiştir — yani ML, geleneksel skorların yaşadığı kalibrasyon kaymasından muaf değildir. Derleme bu nedenle ML için küresel kullanımdan önce dış validasyon, yorumlanabilirlik ve erişilebilirlik sorunlarının çözülmesi gerektiği sonucuna varır.
Bu çekinceler ML'e özgü bir karamsarlık değil, yeni bir aracın olgunlaşma sürecidir. Nitekim yukarıdaki Çin çalışmasının yazarları bile geliştirdikleri aracı "keşfedici/yardımcı" olarak niteler ve cerrahi karara doğrudan etkisinin ileri prospektif validasyon gerektirdiğini belirtir (Zhu ve ark., 2026; doi:10.2196/80671).
Geleneksel skorların elindeki şey: birikmiş validasyon
EuroSCORE II'nin bugünkü değeri, en yüksek ayrım gücüne sahip olması değil; yıllar içinde geniş, çok-merkezli, farklı popülasyonlarda dış validasyondan geçmiş olması, sınırlarının bilinmesi, katsayılarının şeffaf biçimde yayımlanmış olması ve herhangi bir kurumda kolayca hesaplanabilmesidir. Bir model, sınırları bilinen ve şeffaf olduğunda, kara-kutu bir modelin yüksek ama doğrulanmamış AUC'sinden klinik açıdan daha güvenli olabilir. Bu nedenle ML umut verici bir ufuk olmayı sürdürürken, EuroSCORE II günlük pratikte uygulanabilir bir standart olmaya devam ediyor EuroSCORE II rehberi. Üç skorun (EuroSCORE II, STS, ACEF) karşılaştırmasını ayrı bir yazıda ele aldık STS-PROM, EuroSCORE II ve ACEF karşılaştırması.
İstatistikçi açısından sonuç
ML'in vaadi ile hazırlığı arasındaki fark, esasen geleneksel skorların yıllar içinde geçtiği titizlikten geçmemiş olmasıdır: dış validasyon, kalibrasyonun ölçülmesi, şeffaf raporlama ve zaman içinde kararlılığın gösterilmesi. Bir ML modelinin klinik değere ulaşması, daha karmaşık bir algoritmadan değil, tam da bu doğrulama adımlarından geçer. Bu adımlar — bağımsız kohortta validasyon, kalibrasyon analizi, TRIPOD'a uygun raporlama — bir biyoistatistik işidir ve bir model geliştirme ya da doğrulama çalışmasında bu süreçte yanınızda olabiliriz biyoistatistik hizmetlerimiz. Bir skoru kendi merkezinizde nasıl valide edeceğinizi ayrı bir yazıda ele aldık yerel validasyon rehberi.
Not: Bu yazı istatistiksel yöntem ve performansı ele alır; bir modelin klinik kullanımına ilişkin karar ilgili klinik ekibin alanıdır.
Kullanılan kaynaklar
- Zhu K, Lu W, Liu S, Lin H, Hou J. An In-Hospital Mortality Risk Model for Patients Undergoing Coronary Artery Bypass Grafting Based on Machine Learning: Cohort Study. JMIR Form Res. 2026;10:e80671. PMID 42184411 · DOI
- Iacobescu RA, Lunguleac T, Antoniu S, ve ark. Risk Stratification for Postoperative Mortality in Cardiac Surgery: "Quo Vadis"? Medicina (Kaunas). 2026;62(3):606. PMID 41901686 · DOI