Eğitim düzeyini kodladınız: İlkokul=1, Ortaokul=2, Lise=3, Üniversite=4. Veriyi SPSS'e yüklediniz, tanımlayıcı istatistikler aldınız. Sonuç: "Ortalama eğitim düzeyi: 2.47 ± 0.89".
Ortalama eğitim düzeyi 2.47 ne demek? İlkokul ile ortaokul arası mı? Bu sayı hiçbir şey ifade etmiyor.
Kategorik değişken kodlamanın en yaygın hatası bu. Sayısal kod kullanıldığında SPSS o değişkeni sürekli değişken sanıyor. Araştırmacı kategorik bilgiyi sakladığını düşünürken program matematiksel işlem yapıyor.
Nominal ve ordinal ayrımı
Kategorik değişken, sınırlı sayıda kategoriye sahip değişken demek. İki türü var ve ayrım istatistiksel test seçimini doğrudan etkiliyor.
Kategorik Değişken Türleri
Nominal
Ordinal
Kadın erkekten "büyük" değil — sadece farklı. Nominal değişkenlerde kod sıralaması anlamsız. İlkokul ile ortaokul arasındaki mesafe, lise ile üniversite arasındaki mesafe ile aynı değil — ordinal değişkenlerde aralıklar eşit değil. Bu yüzden ordinal değişkende ortalama hesaplamak bilimsel olarak savunulamaz.
En sık yapılan hatalar
Nominal değişkene sıralama vermek. Meslek kodlaması: Doktor=1, Hemşire=2, Teknisyen=3. SPSS bunu gördüğünde "Doktor < Hemşire < Teknisyen" olarak yorumluyor. Matematiksel olarak 1 küçüktür 2'den ama gerçekte hiçbir anlam taşımıyor. Nominal değişkenler için SPSS'te "Nominal" olarak tanımlamak yeterli.
Ordinal değişkeni sürekli saymak. Eğitim düzeyini 1-2-3-4 kodlayıp SPSS'te "Scale" bırakınca program ortalamasını hesaplıyor. "Ortalama eğitim 2.47" demek yorumlanamaz. Ordinal değişkenlerde medyan ve IQR kullanmak ya da kategorilerin yüzdesini vermek daha doğru: "Hastaların %34'ü lise, %28'i üniversite mezunu."
Dummy variable kodunu ters çevirmek. Diyabet var=0, yok=1 şeklinde kodlandığında regresyon sonucu kafa karıştırıcı oluyor: "Diyabet 0.87 kat risk azaltıyor (OR=0.87)." Diyabetin koruyucu olması mümkün değil — sadece kodlama ters. "Diyabet_var" değişkeni 1=Var, 0=Yok şeklinde kodlandığında OR>1 "diyabet riski artırıyor" olarak okunabiliyor.
Doğru kodlama süreci
Dummy variable ve regresyon
Dummy variable sadece iki kategorisi olan değişken. Regresyon analizinde referans kategori kullanılıyor. Kodlama kuralı basit: 1=Özellik var, 0=Özellik yok.
Çok kategorili değişkeni regresyona sokmak için dummy variable'a çevirmek gerekiyor. Kan grubu gibi 4 kategorili bir değişkende referans kategori seçilip (örneğin 0 grubu) diğer her grup için ayrı dummy oluşturuluyor. 4 kategoride 3 dummy yeterli çünkü referans kategori zaten belli.
SPSS'te bu işlem otomatik yapılabiliyor: lojistik regresyon menüsünde "Categorical" butonunda "Reference Category" seçeneği mevcut.
Uyarı
Ordinal değişken "Scale" olarak tanımlandığında SPSS uyarı vermiyor. Ortalama hesaplıyor, t-testi yapıyor. Ama hakem "neden ordinal değişkende t-test?" diye sorduğunda savunulacak bir gerekçe yok.
Kodlama tutarlılığı ve code book
Aynı çalışmada cinsiyet değişkenini bazen 1=Erkek, bazen 1=Kadın olarak kodlamak analizi felakete çeviriyor.
Proje başında kodlama kılavuzu (code book) oluşturmak bu riski ortadan kaldırıyor. Her değişken için kod-etiket eşleşmesini yazmak, SPSS'te "Values" bölümüne girmek ve bu tabloyu ekiple paylaşmak standart iş akışının parçası olmalı.
| Değişken | Kod | Etiket |
|---|---|---|
| Cinsiyet | 1 | Erkek |
| 2 | Kadın | |
| Diyabet | 0 | Yok |
| 1 | Var | |
| Eğitim | 1 | İlkokul |
| 2 | Ortaokul | |
| 3 | Lise | |
| 4 | Üniversite |
Makalede sunum
Methods bölümünde kodlamanın nasıl yapıldığını açıklamak gerekiyor: "Eğitim düzeyi ordinal değişken olarak tanımlandı (1=İlkokul, 2=Ortaokul, 3=Lise, 4=Üniversite). Kategorik değişkenler sayı ve yüzde olarak sunuldu."
"Ortalama eğitim düzeyi 2.47 ± 0.89 idi" yazmak hakemden direkt ret gerekçesi oluyor. Kategorik değişkenler sayı ve yüzde ile, ordinal değişkenler medyan ve IQR ile sunuluyor.
Anket veri kodlama sürecinde de benzer prensipler geçerli. Excel'den SPSS'e aktarımda metinsel kodlama sorunları yaşanıyorsa veri aktarımı rehberi yardımcı oluyor. Eksik veri varsa kodlama hatalarıyla birleştiğinde analiz ciddi şekilde çarpılabiliyor — eksik veri yöntemleri yazımız bu konuda detaylı bilgi sunuyor.
Veri kodlama hataları genellikle analiz aşamasında fark ediliyor ve düzeltmesi zahmetli oluyor. Model İstatistik CRO ekibi olarak hem veri kalitesi kontrolünde hem de istatistik analiz süreçlerinde araştırmacının yanında duruyoruz.