VIF değeri kaç olmalı?

Genel kural: VIF 10 ciddi sorun. Bazı kaynaklar VIF < 10'u kabul edilebilir sayıyor ama 5 eşiği daha güvenli bir standart. VIF 7-8 bandındaysa ve değişken klinik olarak çok kritik değilse, çıkarmak daha mantıklı.

VIF regresyon öncesi mi sonrası mı hesaplanmalı?

Regresyon çalıştırıldıktan sonra. VIF hesaplamak için zaten bir regresyon modeli kurulması gerekiyor. SPSS/R/Stata'da regression komutu çalıştırılıp sonra VIF isteniyor. Yüksek VIF bulunursa değişken çıkarılıp model yeniden kuruluyor.

İki değişken arasında r=0.75 var, ikisi de modelde kalabilir mi?

Muhtemelen evet ama VIF'e bakmak gerekiyor. 0.75 korelasyon orta-yüksek sayılıyor ama tek başına model çökmesi anlamına gelmiyor. VIF < 5 çıkıyorsa sorun yok. Ancak üç-dört değişken birbiriyle 0.70+ korelasyonluysa multicollinearity riski artıyor.

Hangi değişken çıkarılmalı? VIF'i en yüksek olan mı?

Önce klinik mantığa bakılması gerekiyor. İki değişken benzer şey ölçüyorsa, daha spesifik veya literatürde daha yaygın olanı bırakılıyor. VIF en yüksek olanla başlamak mantıklı bir başlangıç noktası ama her zaman en doğru karar değil. Çıkarma sonrası VIF yeniden hesaplanmalı — bazen başka bir değişkenin VIF'i de düşüyor.

Lojistik regresyonda da VIF hesaplanır mı?

Evet. Multicollinearity lojistik regresyonda da aynı sorunları yaratıyor. SPSS'te lojistik regresyon sonrası VIF doğrudan gelmiyor ama aynı değişkenlerle linear regression kurulup VIF hesaplanabiliyor. R'da car::vif() fonksiyonu glm() çıktısıyla da çalışıyor.

Ridge/Lasso kullanılırsa VIF'e bakmaya gerek var mı?

Lasso otomatik değişken eleme yapıyor, Ridge katsayıları stabilize ediyor — multicollinearity'nin etkisini azaltıyorlar. Ama yine de VIF hesaplayıp raporlamak iyi bir pratik. Penalized regression birçok biyomedikal dergide henüz standart olmadığı için metodolojide açıkça belirtilmesi gerekiyor.

Kategorik değişkenler için VIF nasıl hesaplanıyor?

Kategorik değişken dummy variable'lara dönüştürüldüğünde her dummy için ayrı VIF hesaplanabiliyor ama yorumlama zorlaşıyor. Daha pratik yaklaşım: kategorik değişkeni bütün olarak değerlendirmek. İki kategorik değişken çok benzer bilgi içeriyorsa (obezite sınıfı + BMI kategorisi gibi), birinin çıkarılması gerekebiliyor.

Multicollinearity Nedir? VIF ile Tespit

Q: VIF regresyon öncesi mi sonrası mı hesaplanmalı?

Regresyon çalıştırıldıktan sonra. VIF hesaplamak için zaten bir regresyon modeli kurulması gerekiyor. SPSS/R/Stata'da regression komutu çalıştırılıp sonra VIF isteniyor. Yüksek VIF bulunursa değişken çıkarılıp model yeniden kuruluyor.

Q: İki değişken arasında r=0.75 var, ikisi de modelde kalabilir mi?

Muhtemelen evet ama VIF'e bakmak gerekiyor. 0.75 korelasyon orta-yüksek sayılıyor ama tek başına model çökmesi anlamına gelmiyor. VIF < 5 çıkıyorsa sorun yok. Ancak üç-dört değişken birbiriyle 0.70+ korelasyonluysa multicollinearity riski artıyor.

Q: Hangi değişken çıkarılmalı? VIF'i en yüksek olan mı?

Önce klinik mantığa bakılması gerekiyor. İki değişken benzer şey ölçüyorsa, daha spesifik veya literatürde daha yaygın olanı bırakılıyor. VIF en yüksek olanla başlamak mantıklı bir başlangıç noktası ama her zaman en doğru karar değil. Çıkarma sonrası VIF yeniden hesaplanmalı — bazen başka bir değişkenin VIF'i de düşüyor.

Q: Lojistik regresyonda da VIF hesaplanır mı?

Evet. Multicollinearity lojistik regresyonda da aynı sorunları yaratıyor. SPSS'te lojistik regresyon sonrası VIF doğrudan gelmiyor ama aynı değişkenlerle linear regression kurulup VIF hesaplanabiliyor. R'da car::vif() fonksiyonu glm() çıktısıyla da çalışıyor.

Q: Ridge/Lasso kullanılırsa VIF'e bakmaya gerek var mı?

Lasso otomatik değişken eleme yapıyor, Ridge katsayıları stabilize ediyor — multicollinearity'nin etkisini azaltıyorlar. Ama yine de VIF hesaplayıp raporlamak iyi bir pratik. Penalized regression birçok biyomedikal dergide henüz standart olmadığı için metodolojide açıkça belirtilmesi gerekiyor.

Q: Kategorik değişkenler için VIF nasıl hesaplanıyor?

Kategorik değişken dummy variable'lara dönüştürüldüğünde her dummy için ayrı VIF hesaplanabiliyor ama yorumlama zorlaşıyor. Daha pratik yaklaşım: kategorik değişkeni bütün olarak değerlendirmek. İki kategorik değişken çok benzer bilgi içeriyorsa (obezite sınıfı + BMI kategorisi gibi), birinin çıkarılması gerekebiliyor.

Bir lojistik regresyon modeline sekiz bağımsız değişken — yaş, BMI, trigliserid, total kolesterol, LDL, HDL, glukoz, insülin — girdiğinizde çıktıda tuhaf işaretler görebilirsiniz: bazı katsayılar mantıksız, kimi p değerleri 0,90'a yakın, kimi standart hatalar aşırı büyük. Bu tablonun çoğu zamanki nedeni çoklu bağlantı (multicollinearity): bağımsız değişkenlerin birbiriyle yüksek korelasyonlu olması. Vatcheva ve arkadaşlarının (2016) gösterdiği gibi, göz ardı edildiğinde sonuçların yorumlanmasını doğrudan yanıltıyor.

Çoklu bağlantı ne demek?

Çoklu bağlantı, bağımsız değişkenlerin birbiriyle yüksek korelasyonlu olması. Modele "her biri bağımsız bir etkiye sahip" varsayımıyla eklenen değişkenler aslında birbiriyle iç içeyse, model katsayıları kararlı biçimde hesaplayamıyor.

Değişkenler çakışınca model her birinin ayrı etkisini ayrıştıramıyor.

Trigliserid ile total kolesterol arasında r = 0,85 korelasyon varsa, ikisi aynı modele konulduğunda model çıkmaza giriyor: bu ikisi neredeyse aynı şeyi ölçtüğünden, etkilerini ayrı ayrı hesaplamak mümkün olmuyor. Sonuç: katsayılar büyüyüp küçülüyor, standart hatalar şişiyor, p değerleri güvenilirliğini yitiriyor. Danışmanlık sürecimizde 12 bağımsız değişkenli bir modelle karşılaştık; değişkenlerin 7'si kan lipid paneli parametresiydi (total kolesterol, LDL, HDL, VLDL, trigliserid, apoB, non-HDL) ve VIF değerleri 30-40 bandındaydı. Hakemin ilk yorumu net oldu: "Model yorumlanamaz, değişken sayısını azaltın."

Nasıl tespit edilir?

İki yöntem öne çıkıyor: korelasyon matrisi ve VIF (varyans şişirme faktörü, Variance Inflation Factor). Korelasyon matrisi basit ama yüzeysel; iki değişken arasındaki ikili korelasyona bakılıyor ve r > 0,80 görülürse potansiyel sorun var demek. Ancak çoklu bağlantı üç veya daha fazla değişken arasında da oluşabildiğinden, ikili korelasyonlar düşük görünse bile model çökebiliyor. VIF daha güvenilir: her değişkenin diğer bağımsız değişkenlerce ne kadar açıklandığını ölçüyor.

VIF 1'e yakınsa sorun yok; 5-10 arası şüpheli, 10 üzeri ciddi.

Kim'in (2019) belirttiği gibi katsayıların varyansı VIF ile orantılı olarak arttığından, yüksek VIF doğrudan güvenilmez p değerleri ve güven aralıkları üretiyor. SPSS'te Linear Regression > Statistics > Collinearity diagnostics yolu, R'da car::vif() fonksiyonu, Stata'da regresyon sonrası estat vif komutu VIF verir.

Çoklu bağlantı ne yapıyor?

Çoklu bağlantı modeli görünürde imha etmiyor, sessizce sabote ediyor; R² hâlâ yüksek çıkabilirken katsayılar güvenilir olmuyor. Katsayılar dengesizleşiyor: LDL için β = 2,3 (p = 0,02), HDL için β = −4,1 (p = 0,87) bulunabiliyor ve HDL hakkında güvenilir bir yorum yapmak imkânsız hâle geliyor, çünkü LDL ile iç içe. Standart hatalar şişiyor: tahmin kararlı olmadığında güven aralığı genişliyor ve gerçekte etkili bir değişken bile anlamsız çıkabiliyor. Model yorumlanamaz hâle geliyor: "BMI 1 birim artınca risk 0,4 kat azalıyor" bulgusu, modelde bel çevresi de varsa mantıksız — çünkü ikisi zaten aynı şeyi ölçüyor. Daha kötüsü, model farklı bir örneklemde tekrarlandığında katsayılar tamamen değişebiliyor; bu, tekrarlanabilirlik açısından ciddi bir sorun.

Üç ana çözüm yolu var; hangisinin uygun olduğu değişkenlerin klinik değerine ve çalışmanın amacına bağlı:

Çözüm	Ne zaman	Avantaj	Dikkat
Değişken eleme	İlişkili çiftten biri feda edilebiliyorsa	Basit, model yorumlanabilir kalır	Klinik gerekçeyle seç
Birleşik skor / PCA	Değişkenlerin hepsi klinik anlamlıysa	Bilgi korunur	Bileşenin klinik anlamı açıklanmalı
Cezalı regresyon (Ridge/Lasso)	Çok değişkenli, tahmin odaklı model	Katsayıları stabilize eder	Biyomedikalde henüz standart değil

Çözüm 1: değişken eleme

En basit ve çoğu zaman en etkili çözüm, ilişkili değişkenlerden birini çıkarmak. Total kolesterol ile LDL arasında r = 0,92 korelasyon varsa ikisinden biri seçilmeli; hangisinin kalacağını klinik mantık ve literatür belirliyor (kardiyovasküler risk modelinde LDL daha spesifik olduğu için genellikle tercih ediliyor). Korelasyon matrisi çizilip 0,80 üzeri korelasyonlar not ediliyor, her çiftten biri çıkarılıyor ve VIF yeniden hesaplanıyor; hâlâ 10 üzerindeyse bir değişken daha çıkarılıyor — yinelemeli bir süreç. Danışmanlıklarımızda en sık uyguladığımız yaklaşım bu: "12 değişkenli modelde 5'i birbiriyle yüksek korelasyonlu — 3'ünü çıkaralım." Sonuçta model hem yorumlanabilir hâle geliyor hem de hakem değerlendirmesinden geçiyor.

Çözüm 2: birleştirme veya PCA

Bazen değişken çıkarmak istenmez, çünkü hepsi klinik olarak anlamlıdır; bu durumda birleştirme düşünülebilir. Birleşik skor (composite score): trigliserid, LDL ve HDL tek bir "lipid skoru"nda birleştirilebiliyor — ortalama alınarak ya da klinik kılavuzlara göre ağırlıklandırılarak. Temel bileşen analizi (PCA): yüksek korelasyonlu değişkenler boyut indirgemeyle birleştiriliyor; ilk 2-3 temel bileşen orijinal değişkenlerin varyansının büyük bölümünü açıklıyorsa bunlar kullanılabiliyor. Ancak yorumlama zorlaşıyor, çünkü ilk bileşenin klinik olarak ne anlama geldiğini tartışma bölümünde açıklamak gerekiyor.

İpucu

VIF hesaplandıktan sonra değişken çıkarmaya başlamadan önce korelasyon matrisini çizip değişkenleri gruplamak çok faydalı: "lipid grubu", "inflamasyon grubu", "glisemik kontrol grubu" gibi. Her gruptan en klinik anlamlı olan bırakılıp diğerleri çıkarıldığında hem çoklu bağlantı çözülüyor hem de model yorumlanabilir kalıyor.

Çözüm 3: Ridge/Lasso regresyon

Klasik regresyon yerine cezalı regresyon (penalized regression) da bir seçenek. Ridge regresyon katsayıları sıfıra doğru büzerek kararlı hale getiriyor; Lasso regresyon ise bazı katsayıları tam sıfır yaparak otomatik değişken eleme yapıyor. Bu yöntemler makine öğrenmesi tabanlı çalışmalarda yaygın, ama klasik biyomedikal dergilerde henüz standart değil; kullanılacaksa yöntemde açıkça belirtilmesi ve sonuçların klasik regresyonla karşılaştırılması bekleniyor. Lojistik regresyonda OR ve CI raporlama kuralları bu karşılaştırmada referans oluşturuyor.

Raporlama

Regresyon analizinde VIF değerlerinin belirtilmesi bekleniyor: "Çoklu bağlantı değerlendirmesi varyans şişirme faktörü (VIF) ile yapılmış, tüm değişkenler için VIF < 5 bulunmuştur." Yüksek VIF bulunup değişken çıkarıldıysa: "Başlangıçta 10 bağımsız değişken değerlendirilmiş, ancak VIF > 10 nedeniyle total kolesterol ve VLDL modelden çıkarılmıştır." Bu şeffaflık, hakemlerin "neden bu değişken yok?" sorusunu önceden yanıtlıyor. Değişken seçim sürecinin tamamını lojistik regresyon model kurma yazımızda ayrıntılı ele aldık.

VIF düşük ama model hâlâ tutarsız?

VIF < 5 olmasına rağmen model tutarsız sonuç veriyorsa birkaç olasılık var. Örneklem yetersizliği: her bağımsız değişken için en az 10-15 olay gerekir; 8 değişkenli bir modelde 80-120 olay beklenirken olay sayısı 45 ise model aşırı uyum (overfitting) yapıyor olabilir. Doğrusal olmayan ilişki (non-linearity): değişkenler arasında doğrusal olmayan bir ilişki varsa katsayılar yanıltıcı çıkabilir; spline veya kategorik dönüşüm denenebilir. Etkili gözlem (influential case): birkaç uç gözlem tüm modeli bozabilir ve Cook uzaklığıyla kontrol edilmesi önerilir. Kısacası VIF tek başına yeterli değil, model tanı araçlarının bir parçası; p değeri anlamsız çıktığında ne yapılacağını bilmek de bu değerlendirmenin doğal tamamlayıcısı.

Model İstatistik ekibi olarak regresyon modelinin kurulmasından çoklu bağlantı değerlendirmesine, değişken seçiminden raporlamaya kadar araştırmacıya rehberlik ediyoruz.

Not: Buradaki korelasyon, VIF ve katsayı değerleri kavramı göstermek için seçilmiş örneklerdir; eşikler yol gösterici niteliktedir ve kesin karar çalışmanın verisi üzerinden verilir.

Kullanılan kaynaklar

Kim JH. Multicollinearity and misleading statistical results. Korean Journal of Anesthesiology. 2019;72(6):558-569. · DOI
Vatcheva KP, Lee M, McCormick JB, Rahbar MH. Multicollinearity in regression analyses conducted in epidemiologic studies. Epidemiology (Sunnyvale). 2016;6(2):227. · DOI

Çözüm	Ne zaman	Avantaj	Dikkat
Değişken eleme	İlişkili çiftten biri feda edilebiliyorsa	Basit, model yorumlanabilir kalır	Klinik gerekçeyle seç
Birleşik skor / PCA	Değişkenlerin hepsi klinik anlamlıysa	Bilgi korunur	Bileşenin klinik anlamı açıklanmalı
Cezalı regresyon (Ridge/Lasso)	Çok değişkenli, tahmin odaklı model	Katsayıları stabilize eder	Biyomedikalde henüz standart değil

Not: Buradaki korelasyon, VIF ve katsayı değerleri kavramı göstermek için seçilmiş örneklerdir; eşikler yol gösterici niteliktedir ve kesin karar çalışmanın verisi üzerinden verilir.

Kullanılan kaynaklar

Kim JH. Multicollinearity and misleading statistical results. Korean Journal of Anesthesiology. 2019;72(6):558-569. · DOI
Vatcheva KP, Lee M, McCormick JB, Rahbar MH. Multicollinearity in regression analyses conducted in epidemiologic studies. Epidemiology (Sunnyvale). 2016;6(2):227. · DOI

Çoklu Bağlantı (Multicollinearity): Regresyon Modeli Neden Çöker?

Çoklu bağlantı ne demek?

Nasıl tespit edilir?

Çoklu bağlantı ne yapıyor?

Çözüm 1: değişken eleme

Çözüm 2: birleştirme veya PCA

Çözüm 3: Ridge/Lasso regresyon

Raporlama

VIF düşük ama model hâlâ tutarsız?

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Lojistik Regresyon: Odds Ratio ve %95 Güven Aralığı Yorumlama

Hangi İstatistik Testi Kullanmalıyım? Karar Ağacı

Araştırmanız İçin Destek Alın

Çoklu Bağlantı (Multicollinearity): Regresyon Modeli Neden Çöker?

Çoklu bağlantı ne demek?

Nasıl tespit edilir?

Çoklu bağlantı ne yapıyor?

Çözüm 1: değişken eleme

Çözüm 2: birleştirme veya PCA

Çözüm 3: Ridge/Lasso regresyon

Raporlama

VIF düşük ama model hâlâ tutarsız?

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Lojistik Regresyon: Odds Ratio ve %95 Güven Aralığı Yorumlama

Hangi İstatistik Testi Kullanmalıyım? Karar Ağacı

Araştırmanız İçin Destek Alın