Cinsiyet için 0-1 mi, 1-2 mi kodlamalı?

İkisi de doğru. Dummy variable olarak regresyonda kullanılacaksa 0-1 tercih ediliyor. Tanımlayıcı analizde 1-2 de kullanılabilir. Önemli olan tutarlılık ve SPSS'te 'Values' bölümünde tanımlama.

Ordinal değişkende ortalama neden yanlış?

Kategoriler arası mesafe eşit olmadığı için. İlkokul-ortaokul farkı ile lise-üniversite farkı aynı değil. Ortalama hesaplamak bu mesafelerin eşit olduğunu varsayıyor. Ordinal değişkenlerde medyan daha doğru.

SPSS'te 'Measure' sütununu ayarlamazsam ne olur?

SPSS değişkeni 'Scale' kabul ediyor. Kategorik değişkenin ortalamasını hesaplıyor, uygunsuz testler öneriyor. Sonuçlar teknik olarak çıkıyor ama bilimsel olarak geçersiz. Nominal veya Ordinal olarak işaretlemek şart.

Kan grubu gibi 4 kategorili değişkeni regresyona nasıl sokarım?

Dummy variable oluşturmak gerekiyor. Bir kategori referans seçilip diğer üç grup için ayrı dummy kodlanıyor. SPSS'te lojistik regresyon menüsünde 'Categorical' butonunu kullanarak otomatik yaptırmak mümkün.

Likert ölçeği (1-5 puan) ordinal mi, sürekli mi?

Tartışmalı bir konu. Tek soru için kesinlikle ordinal. Çok soruluk ölçekte toplam puan alınıyorsa ve yeterli kategori varsa bazı araştırmacılar sürekli kabul ediyor. Ama medyan vermek daha güvenli bir tercih.

Dummy variable'da 1=Var, 0=Yok mu yoksa tersi mi doğru?

1=Var, 0=Yok daha mantıklı. Lojistik regresyonda OR>1 olduğunda 'özellik var olanlar daha fazla risk altında' diye yorumlanabiliyor. Tersi kodlandığında yorumlama kafa karıştırıcı oluyor.

Kategorik Değişken Kodlama Hataları ve Doğru Yaklaşım

Eğitim düzeyi İlkokul=1, Ortaokul=2, Lise=3, Üniversite=4 olarak kodlanıp SPSS'e yüklendiğinde, tanımlayıcı istatistiklerde "Ortalama eğitim düzeyi: 2,47 ± 0,89" gibi bir satır çıkabiliyor. Oysa bu sayının bir karşılığı yok: "ortalama eğitim düzeyi 2,47" ne İlkokul'dur ne de Ortaokul.

Kategorik değişken kodlamanın en yaygın hatası bu. Sayısal kod kullanıldığında SPSS o değişkeni sürekli değişken sanıyor; araştırmacı kategorik bilgiyi sakladığını düşünürken program matematiksel işlem yapıyor.

Nominal ve ordinal ayrımı

Kategorik değişken, sınırlı sayıda kategoriye sahip değişken demek. İki türü var ve ayrım istatistiksel test seçimini doğrudan etkiliyor (Mishra ve ark. 2019; du Prel ve ark. 2010).

Kategorik Değişken Türleri

Nominal

Ordinal

Değişkenin türü yanlış tanımlanırsa hem test hem sunum yanlış olur.

Kadın erkekten "büyük" değil — sadece farklı. Nominal değişkenlerde kod sıralaması anlamsız. İlkokul ile ortaokul arasındaki mesafe, lise ile üniversite arasındaki mesafe ile aynı değil — ordinal değişkenlerde aralıklar eşit değil. Bu yüzden ordinal değişkende ortalama hesaplamak bilimsel olarak savunulamaz.

En sık yapılan hatalar

Nominal değişkene sıralama vermek. Meslek kodlaması: Doktor=1, Hemşire=2, Teknisyen=3. SPSS bunu gördüğünde "Doktor < Hemşire < Teknisyen" olarak yorumluyor. Matematiksel olarak 1 küçüktür 2'den ama gerçekte hiçbir anlam taşımıyor. Nominal değişkenler için SPSS'te "Nominal" olarak tanımlamak yeterli.

Ordinal değişkeni sürekli saymak. Eğitim düzeyini 1-2-3-4 kodlayıp SPSS'te "Scale" bırakınca program ortalamasını hesaplıyor. "Ortalama eğitim 2,47" demek yorumlanamaz. Ordinal değişkenlerde medyan ve IQR kullanmak ya da kategorilerin yüzdesini vermek daha doğru: "Hastaların %34'ü lise, %28'i üniversite mezunu."

Gösterge değişkeni (dummy variable) kodunu ters çevirmek. Diyabet var=0, yok=1 şeklinde kodlandığında regresyon sonucu kafa karıştırıcı oluyor: "Diyabet 0,87 kat risk azaltıyor (OR=0,87)." Diyabetin koruyucu olması mümkün değil — sadece kodlama ters. "Diyabet_var" değişkeni 1=Var, 0=Yok şeklinde kodlandığında OR>1 "diyabet riski artırıyor" olarak okunabiliyor.

Doğru kodlama süreci

Gösterge değişkeni (dummy) ve regresyon

Gösterge değişkeni (dummy variable), yalnızca iki değeri olan bir değişken. Regresyon analizinde bir kategori referans olarak seçiliyor. Kodlama kuralı basit: 1=Özellik var, 0=Özellik yok.

k kategori için k−1 gösterge yeterlidir; referans kategori tüm göstergeler sıfırken temsil edilir.

Çok kategorili değişkeni regresyona sokmak için gösterge değişkenlerine çevirmek gerekiyor. Kan grubu gibi 4 kategorili bir değişkende referans kategori seçilip (örneğin 0 grubu) diğer her grup için ayrı bir gösterge oluşturuluyor. 4 kategoride 3 gösterge yeterli, çünkü referans kategori zaten belli.

SPSS'te bu işlem otomatik yapılabiliyor: lojistik regresyon menüsünde "Categorical" butonundaki "Reference Category" (referans kategori) seçeneği bu ayrımı sağlıyor.

Uyarı

Ordinal değişken "Scale" olarak tanımlandığında SPSS uyarı vermiyor. Ortalama hesaplıyor, t-testi yapıyor. Ama hakem "neden ordinal değişkende t-test?" diye sorduğunda savunulacak bir gerekçe yok.

Kodlama tutarlılığı ve kodlama kılavuzu (code book)

Aynı çalışmada cinsiyet değişkenini bazen 1=Erkek, bazen 1=Kadın olarak kodlamak analizi felakete çeviriyor.

Proje başında kodlama kılavuzu (code book) oluşturmak bu riski ortadan kaldırıyor. Her değişken için kod-etiket eşleşmesini yazmak, SPSS'te "Values" bölümüne girmek ve bu tabloyu ekiple paylaşmak standart iş akışının parçası olmalı.

Değişken	Kod	Etiket
Cinsiyet	1	Erkek
	2	Kadın
Diyabet	0	Yok
	1	Var
Eğitim	1	İlkokul
	2	Ortaokul
	3	Lise
	4	Üniversite

Makalede sunum

Yöntem bölümünde kodlamanın nasıl yapıldığını açıklamak gerekiyor: "Eğitim düzeyi ordinal değişken olarak tanımlandı (1=İlkokul, 2=Ortaokul, 3=Lise, 4=Üniversite). Kategorik değişkenler sayı ve yüzde olarak sunuldu."

"Ortalama eğitim düzeyi 2,47 ± 0,89 idi" yazmak hakemden doğrudan ret gerekçesi oluyor. Kategorik değişkenler sayı ve yüzde ile, ordinal değişkenler medyan ve IQR ile sunuluyor.

Anket veri kodlama sürecinde de benzer prensipler geçerli. Excel'den SPSS'e aktarımda metinsel kodlama sorunları yaşanıyorsa veri aktarımı rehberi yardımcı oluyor. Eksik veri varsa kodlama hatalarıyla birleştiğinde analiz ciddi şekilde çarpılabiliyor — eksik veri yöntemleri yazımız bu konuda detaylı bilgi sunuyor.

Veri kodlama hataları genellikle analiz aşamasında fark ediliyor ve düzeltmesi zahmetli oluyor. Model İstatistik CRO ekibi olarak hem veri kalitesi kontrolünde hem de istatistik analiz süreçlerinde araştırmacının yanında duruyoruz.

Kullanılan kaynaklar

Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI
du Prel JB, Röhrig B, Hommel G, Blettner M. Choosing statistical tests: part 12 of a series on evaluation of scientific publications. Deutsches Ärzteblatt International. 2010;107(19):343-348. · DOI

Nominal ve ordinal ayrımı

Kategorik değişken, sınırlı sayıda kategoriye sahip değişken demek. İki türü var ve ayrım istatistiksel test seçimini doğrudan etkiliyor (Mishra ve ark. 2019; du Prel ve ark. 2010).

Kategorik Değişken Türleri

Nominal

Ordinal

Değişkenin türü yanlış tanımlanırsa hem test hem sunum yanlış olur.

En sık yapılan hatalar

Doğru kodlama süreci

Gösterge değişkeni (dummy) ve regresyon

Gösterge değişkeni (dummy variable), yalnızca iki değeri olan bir değişken. Regresyon analizinde bir kategori referans olarak seçiliyor. Kodlama kuralı basit: 1=Özellik var, 0=Özellik yok.

k kategori için k−1 gösterge yeterlidir; referans kategori tüm göstergeler sıfırken temsil edilir.

SPSS'te bu işlem otomatik yapılabiliyor: lojistik regresyon menüsünde "Categorical" butonundaki "Reference Category" (referans kategori) seçeneği bu ayrımı sağlıyor.

Uyarı

Kodlama tutarlılığı ve kodlama kılavuzu (code book)

Aynı çalışmada cinsiyet değişkenini bazen 1=Erkek, bazen 1=Kadın olarak kodlamak analizi felakete çeviriyor.

Değişken	Kod	Etiket
Cinsiyet	1	Erkek
	2	Kadın
Diyabet	0	Yok
	1	Var
Eğitim	1	İlkokul
	2	Ortaokul
	3	Lise
	4	Üniversite

Makalede sunum

"Ortalama eğitim düzeyi 2,47 ± 0,89 idi" yazmak hakemden doğrudan ret gerekçesi oluyor. Kategorik değişkenler sayı ve yüzde ile, ordinal değişkenler medyan ve IQR ile sunuluyor.

Kullanılan kaynaklar

Mishra P, Pandey CM, Singh U, Keshri A, Sabaretnam M. Selection of appropriate statistical methods for data analysis. Annals of Cardiac Anaesthesia. 2019;22(3):297-301. · DOI
du Prel JB, Röhrig B, Hommel G, Blettner M. Choosing statistical tests: part 12 of a series on evaluation of scientific publications. Deutsches Ärzteblatt International. 2010;107(19):343-348. · DOI

Kategorik Değişken Kodlama Hataları ve Doğru Yaklaşım

Nominal ve ordinal ayrımı

Kategorik Değişken Türleri

En sık yapılan hatalar

Doğru kodlama süreci

Gösterge değişkeni (dummy) ve regresyon

Kodlama tutarlılığı ve kodlama kılavuzu (code book)

Makalede sunum

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Anket Verisi Kodlama ve Puanlama Rehberi

Excel'den SPSS'e Aktarımda 9 Hata (ve Neden Veriniz Çöküyor)

Araştırmanız İçin Destek Alın

Kategorik Değişken Kodlama Hataları ve Doğru Yaklaşım

Nominal ve ordinal ayrımı

Kategorik Değişken Türleri

En sık yapılan hatalar

Doğru kodlama süreci

Gösterge değişkeni (dummy) ve regresyon

Kodlama tutarlılığı ve kodlama kılavuzu (code book)

Makalede sunum

Kullanılan kaynaklar

Sıkça Sorulan Sorular

İlgili Yazılar

Anket Verisi Kodlama ve Puanlama Rehberi

Excel'den SPSS'e Aktarımda 9 Hata (ve Neden Veriniz Çöküyor)

Araştırmanız İçin Destek Alın