Her outlier'ı silmem gerekiyor mu?

Hayır. Sadece veri giriş hatası, ölçüm hatası veya protokol ihlali varsa silmek mantıklı. Gerçek ama nadir bir durum ise bırakmak daha doğru.

IQR mi, Z-skoru mu daha uygun?

Dağılım normale yakınsa Z-skoru, çarpıksa IQR daha uygun. Ama her iki yöntemi de deneyip sonuçların tutarlı olup olmadığına bakmak en güvenilir yaklaşım.

Outlier çıkarınca p-değeri düştü, bu etik mi?

Çıkarma kararı analiz öncesiyse ve gerekçeliyse evet. Sonuca bakıp karar verildiyse hayır — bu p-hacking. Outlier yönetimi protokolde tanımlanmış olmalı.

Box plot'ta 5 nokta uçuyor ama hepsi gerçek veri. Ne yapmalıyım?

Bırakıp non-parametrik test kullanmak (Mann-Whitney, Kruskal-Wallis) daha doğru. Ya da robust istatistikler (medyan, trimmed mean) ile raporlamak mantıklı.

Outlier'ları log dönüşümü ile düzeltebilir miyim?

Dönüşüm outlier'ın etkisini azaltıyor ama yorumlama zorlaşıyor. Dönüşüm öncesi ve sonrası sonuçları karşılaştırmak ve tutarlılığa bakmak önemli.

Cook's Distance nedir, ne zaman kullanılır?

Regresyon modellerinde bir gözlemin modele etkisini ölçüyor. Cook's D > 4/n ise o gözlem modeli önemli ölçüde etkiliyor demek. Sadece regresyon için geçerli, grup karşılaştırmalarında kullanılmıyor.

Outlier Nedir? Uç Değer Tespiti Rehberi

Bir kutu grafiğinde (box plot) birkaç nokta diğerlerinden belirgin biçimde uzakta durabilir; histogramda iki değer çok sağda kalır. Bu üç noktayı silince sonuç anlamlı (p=0,03), bırakınca anlamsız (p=0,12) çıkabiliyor. Böyle bir durumda verilen karar çoğu zaman hatalı oluyor: uç değeri (outlier) silmek kolaydır — bir tık, üç satır gider, p-değeri düşer. Ama hakem "bu üç hastayı neden çıkardınız?" diye sorduğunda "uç değerdi" demek bir gerekçe değil. Klinik gerekçe olmadan silmek, veri manipülasyonuna kapı aralar.

Uç değer nedir — gerçekten?

Uç değer, veri setinin geri kalanından istatistiksel olarak uzak olan gözlem demek. Ama "ne kadar uzak?" sorusunun iki farklı cevabı var.

İstatistiksel uç değer: Z-skoru ≥ 3 olan değerler ya da IQR yöntemiyle Q1 − 1,5×IQR'den küçük veya Q3 + 1,5×IQR'den büyük olanlar. Bu tanım sayılara bakıyor, bağlamdan habersiz.

Klinik/biyolojik uç değer: 80 yaşında kalp hızı 180/dk olan hasta ya da 50 kg ağırlığında hemoglobin 25 g/dL olan kişi. Bu tanım gerçeği arıyor — sayılar değil, anlam önemli.

Sorun şu: çoğu araştırmacı istatistiksel uç değeri siliyor, klinik uç değeri görmezden geliyor. Oysa uç değerler ortalama ve standart sapma tahminlerini önemli ölçüde etkilediğinden, nasıl ele alındıkları sonucu doğrudan değiştiriyor (Kwak ve Kim 2017).

Tespit yöntemleri

Çitlerin dışındaki noktalar kesin uç değer değil, incelenmesi gereken potansiyel uç değerlerdir.

Yöntemlerin hepsinin artı ve eksileri var; hepsini uygulamak ama sonuca göre karar değiştirmemek önemli.

Kutu grafiği (box plot): Tek bakışta görülüyor ama sayısal eşik yok, öznel. Uçan noktalar "kesin uç değer" değil — potansiyel uç değer. Her birine tek tek bakmak gerekiyor.

IQR yöntemi (Tukey): Alt sınır Q1 − 1,5×IQR, üst sınır Q3 + 1,5×IQR. Dağılım normalden uzaksa ve örneklem küçükse uygun. 1,5 katsayısı sözleşmeseldir — bazı kaynaklarda aşırı uç değerler için 3,0 öneriliyor. Eşiğin gerekçelendirilmesi önemli.

Z-skoru: Z = (X − Ortalama) / Standart Sapma. |Z| ≥ 3 eşiği yaygın. Dağılım normale yakınsa ve büyük örneklemlerde uygun. Tuzak: uç değerin kendisi ortalamayı ve standart sapmayı etkiliyor. Dayanıklı (robust) sürümler — düzeltilmiş Z-skoru (Modified Z-score), medyan mutlak sapma (MAD) temelli — bu sorunu aşıyor.

Cook uzaklığı (Cook's Distance, regresyon için): Bir gözlem çıkarıldığında regresyon katsayılarının ne kadar değiştiğini ölçüyor. Cook's D > 4/n ise etki büyük. Yalnızca regresyon modelleri için geçerli.

Uç değer bulundu — ne yapmalı?

Karar, değerin neden uç noktada olduğuna bağlıdır; her yol şeffaf biçimde raporlanmalıdır.

Silmek: Veri giriş hatası (düzeltilemiyorsa), ölçüm hatası veya protokol ihlali varsa silmek mantıklı. Ama silme kararının raporlanması şart. "3 hasta aykırı değer nedeniyle çıkarıldı" değil, "3 hastada veri giriş hatası tespit edildi ve analiz dışı bırakıldı" yazmak doğru.

Dönüştürmek: Log, karekök veya ters dönüşüm; dağılımı normale yaklaştırıyor, uç değerlerin etkisini azaltıyor. Değer gerçekse ama dağılım çarpıksa uygun. Dönüşüm sonrası yorumlama zorlaşıyor — "log(CRP) ortalaması 1,2 birim düştü" demek, ham CRP'ye çevrilmeden anlam ifade etmiyor.

Bırakmak: Değer gerçekse, protokole uygunsa, klinik olarak makul ise bırakmak en doğru yaklaşım. Non-parametrik testler (Mann-Whitney, Kruskal-Wallis) uç değere daha az duyarlı (Mishra ve ark. 2019); dayanıklı istatistikler (medyan, budanmış ortalama / trimmed mean) de işe yarıyor.

Duyarlılık analizi: en güvenilir yol

Karar verilemediğinde her iki senaryoyu da test etmek en güvenilir yaklaşım:

Uç değer dahil → p = 0,12
Uç değer hariç → p = 0,03

Sonuç değişiyorsa bulgular uç değere bağımlı demek. Bu durumda makalede her iki sonucu da raporlamak, "duyarlılık analizinde 3 uç değer çıkarıldığında sonuç anlamlı hâle geldi (p=0,03)" yazmak ve tartışmada nedenlerini açıklamak en doğru yaklaşım. Hakem şeffaflığı değerli buluyor.

Sık yapılan hatalar

"p<0,05 için silmek." Bu bir veri manipülasyonu. Uç değer silme kararı analiz öncesi verilmeli; sonuca bakıp karar değiştirmek etik ihlaldir.

"Kutu grafiğinde uçuyor, çıkardım." Kutu grafiği karar verme aracı değil, tespit aracı. Tespit ettikten sonra neden uçtuğunu araştırmak gerekiyor.

"Normallik testi başarısız, uç değerleri çıkarıyorum." Normallik testi başarısız oluyorsa sorun uç değer değil, dağılımın kendisi olabilir. Non-parametrik teste geçmek veya dönüşüm yapmak daha doğru.

Uyarı

Tipik bir hakem yorumu şöyle olabiliyor: "Authors removed 3 outliers without justification. This appears to be p-hacking." Yani gerekçesiz uç değer silme, p-değeri avcılığı (p-hacking) olarak okunuyor. Bu yorumu almamak için uç değer yönetimini protokolde tanımlayıp raporlamak önemli.

Raporlama

Yöntem bölümünde uç değer tespit yönteminin belirtilmesi, tespit edilen değerlerin kaynak verilerle kontrol edilmesi ve klinik değerlendirme sürecinin açıklanması gerekiyor. Sonuçlar bölümünde kaç uç değer tespit edildiği, bu hastaların klinik durumu ve duyarlılık analizi sonuçları raporlanmalı.

Uç değer tespiti, veri temizleme sürecinin kritik bir parçası. Tespit sonrası karar aşamasında veri giriş hatalarını önleme stratejileri de dikkate alınmalı. Uç değerler normallik varsayımını etkilediği için normallik testi yöntemleri ile birlikte değerlendirilmesi daha sağlıklı sonuç veriyor.

Uç değer yönetimi protokolde tanımlanıp prospektif olarak uygulandığında hakem sürecini kolaylaştırıyor. Model İstatistik CRO ekibi olarak hem veri analizi hem de raporlama süreçlerinde araştırmacının yanında duruyoruz.

Kullanılan kaynaklar

Kwak SK, Kim JH. Statistical data preparation: management of missing values and outliers. Korean Journal of Anesthesiology. 2017;70(4):407-411. · DOI
Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI

Uç değer nedir — gerçekten?

Uç değer, veri setinin geri kalanından istatistiksel olarak uzak olan gözlem demek. Ama "ne kadar uzak?" sorusunun iki farklı cevabı var.

Klinik/biyolojik uç değer: 80 yaşında kalp hızı 180/dk olan hasta ya da 50 kg ağırlığında hemoglobin 25 g/dL olan kişi. Bu tanım gerçeği arıyor — sayılar değil, anlam önemli.

Tespit yöntemleri

Çitlerin dışındaki noktalar kesin uç değer değil, incelenmesi gereken potansiyel uç değerlerdir.

Yöntemlerin hepsinin artı ve eksileri var; hepsini uygulamak ama sonuca göre karar değiştirmemek önemli.

Kutu grafiği (box plot): Tek bakışta görülüyor ama sayısal eşik yok, öznel. Uçan noktalar "kesin uç değer" değil — potansiyel uç değer. Her birine tek tek bakmak gerekiyor.

Uç değer bulundu — ne yapmalı?

Karar, değerin neden uç noktada olduğuna bağlıdır; her yol şeffaf biçimde raporlanmalıdır.

Duyarlılık analizi: en güvenilir yol

Karar verilemediğinde her iki senaryoyu da test etmek en güvenilir yaklaşım:

Uç değer dahil → p = 0,12
Uç değer hariç → p = 0,03

Sık yapılan hatalar

"p<0,05 için silmek." Bu bir veri manipülasyonu. Uç değer silme kararı analiz öncesi verilmeli; sonuca bakıp karar değiştirmek etik ihlaldir.

"Kutu grafiğinde uçuyor, çıkardım." Kutu grafiği karar verme aracı değil, tespit aracı. Tespit ettikten sonra neden uçtuğunu araştırmak gerekiyor.

Uyarı

Raporlama

Kullanılan kaynaklar

Kwak SK, Kim JH. Statistical data preparation: management of missing values and outliers. Korean Journal of Anesthesiology. 2017;70(4):407-411. · DOI
Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI

Uç Değer (Outlier) Tespiti ve Yönetimi: Silmek Çözüm mü?

Uç değer nedir — gerçekten?

Tespit yöntemleri

Uç değer bulundu — ne yapmalı?

Duyarlılık analizi: en güvenilir yol

Sık yapılan hatalar

Raporlama

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Veri Giriş Hatalarını Önleme: Validasyon Kuralları ve Çift Giriş Yöntemi

Normallik Testi Yöntemleri: Hangisi, Ne Zaman?

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Araştırmanız İçin Destek Alın

Uç Değer (Outlier) Tespiti ve Yönetimi: Silmek Çözüm mü?

Uç değer nedir — gerçekten?

Tespit yöntemleri

Uç değer bulundu — ne yapmalı?

Duyarlılık analizi: en güvenilir yol

Sık yapılan hatalar

Raporlama

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Veri Giriş Hatalarını Önleme: Validasyon Kuralları ve Çift Giriş Yöntemi

Normallik Testi Yöntemleri: Hangisi, Ne Zaman?

Eksik Veri (Missing Data) Problemi: Silmek mi, Doldurmak mı?

Araştırmanız İçin Destek Alın