Kayıp Veri – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri
Sınıflandırma için CRT
Gösterilen iletişim kutusunda bu örnek için yapılandırmayı ayarlayın. Büyütme Yöntemini CRT olarak değiştireceğiz, ancak başka bir değişiklik yapmayacağız. Tüm olası girdiler kullanılacaktır (ikinci CHAID denememizde de durum böyleydi). Gösterilen değişkenler Pclass, Sex, Parch, Age, SibSp, Fare ve Embarked_Code’dur.
CHAID’de belirttiğimiz gibi, Ölçüm Düzeyi beyanının sonuca etkisi olduğunu unutmayın. Doğrulama aynı kalır; Train_Test değişkenini kullanın. Kriterler için, ikinci CHAID girişimi için seçtiğimiz ayarları kullanın – derinlik 5, ebeveyn için minimum 30 ve minimum çocuk için gösterilen sonuç çok daha büyük bir ağaçtır.
CRT, çok daha karmaşık bir ağaç üretti. Performansı, ikinci CHAID girişimi ile hemen hemen aynıdır. Aynı zamanda oldukça kararlıdır. Erkekler için en önemli ikinci değişken olarak Yaşı kullandığına dikkat edin. Ayrıca, Ücret, kesme noktaları arasında ince ve küçük küçük farklarla birden çok kez kullanılır.
CRT Algoritmasının Neden Farklı Bir Ağaç Ürettiğini Anlama
CRT algoritması ilk olarak 1984 yılında Leo Breiman, Jerome Friedman, Charles J. Stone ve R.A. Olshen, Sınıflandırma ve Regresyon Ağaçları (Chapman ve Hall/CRC) adlı kitabında yer alır. Bununla birlikte, yaklaşımın önemli bir bileşeni, 75 yıl daha eski olan Gini Katsayısı’nı kullanmaktır.
Sosyolog Corrado Gini’nin Gini Katsayısı, ülkelerdeki gelir eşitsizliğini tanımlamak için kullanılır. Sıfır Gini Katsayısı, herkesin aynı gelire sahip olduğu bir ülkeyi tanımlar ve 1 Gini katsayısı, bir kişinin tüm gelire sahip olduğu anlamına gelir. CRT algoritması bunu akıllı bir şekilde yeniden kullanır.
Nihai olarak bir karar ağacının amacı, hedef değişkende “farklılığın” olmadığı yaprak düğümleri belirlemektir. Alternatif kelime dağarcığı, bir karar ağacı bağlamında bize daha iyi hizmet eder. “Saf” bir yaprak düğümde, hedef değişkenin tüm değerleri aynı olacaktır. Bu nedenle, CRT kullanırken veya ayarları değiştirirken genellikle “saflık” ve “katışıklık” kelimelerini kullanırız.
Dolayısıyla, CRT’nin ilk değişken olarak Sex’i seçtiği gerçeği hakkında yapılacak iki önemli gözlem var. İlk olarak, CRT her zaman bir ikili bölme üretir. CHAID, gördüğümüz gibi, her zaman böyle yapmaz. Bu nedenle, biri CHAID ve diğeri CRT olan iki ağaç, oldukça farklı görünme eğiliminde olacaktır, ancak tahminlerinde benzer veya hatta aynı olabilir. İkincisi, safsızlığı azaltmak bir hedef olduğundan, Seks safsızlıkta önemli bir azalma üretmiş olmalıdır.
Kayıp veri Nedir
Eksik veri tamamlama yöntemleri
Kayıp veri analizi
Kayıp değerleri düzeltilme yöntemleri
R da eksik veri
Spss de kayıp veriler nasıl bulunur
SPSS kayıp veri
Kayıp veri grafiği
Genel hayatta kalma oranı yaklaşık %40’tır ve bu, safsızlığı maksimize edecek orandan çok da uzak değildir. Her kategoride %50’lik bir ikili hedef bunu başarabilir. Buna karşılık, Cinsiyette bölünmeden sonra, dişiler için hayatta kalma oranı, Düğüm 1’de %50’den uzaklaşarak tırmanır ve Erkekler için tam tersi gerçekleşir.
CHAID’in en düşük p değerini araştırması aynı etkiyi yaratma eğilimindedir, ancak CRT ile daha çok doğrudan saf yaprak düğümleri hedefine hareket ederiz. Bu yaklaşım üzerinde dikkatlice düşünürseniz, endişe duymalısınız. Yalnızca bir durumu olan bir yaprak düğüm her zaman saf olacaktır.
Bu endişe vericidir, ancak CRT algoritması bunu “dengeyi” kirlilikteki azalmayla eşit olarak tartarak ele alır. Düğüm 1 ve 2 boyut olarak eşit olmasa da, 212 ve 396 boyutları çok dengesiz değildir. Cinsiyet değişkeni hem saflığı hem de dengeyi tartarken en güçlü seçenekti ve bu nedenle CRT önce Cinsiyete bölündü.
Ölçek değişkenleri CRT’de zarif bir şekilde işlenir. Bunları bir ilk adım olarak dönüştürmesi gerekmez. Gördüğümüz gibi, CHAID, ölçek değişkenlerini ondalıklara dönüştürür ve daha sonraki adımlarda bunları sıralı değişkenler olarak ele alır. CRT’nin algoritması, olası her kesim noktasını dikkate alır.
Doğal olarak, ilk ve son kesme noktaları çok dengesiz bir bölünme yaratacaktır, ancak hepsini hesaplar. Bu veri kümesi örneğinde, genç erkeklerin, erkek ergenler ve yetişkinlerden çok daha yüksek bir hayatta kalma oranına sahip olduğunu görüyoruz. Yaş için olası tüm kesme noktaları arasında 13 yaş saflık ve denge için en uygun olanıydı. Ve Erkekleri alt bölümlere ayıracak tüm olası değişkenler arasında Yaş en iyisiydi.
Kayıp Veri
Suretler, eksik veri sorununa büyüleyici bir çözümdür. CHAID’in aksine, CRT eksik verileri ayrı bir kategori olarak ele almaz. Örneğin, Titanik verilerinde önemli sayıda yolcunun yaş değeri eksik. CHAID’in bu konudaki davranışı, eksik değeri olan vakaların ağaçta nerede olduğunu kolayca görebileceğiniz için, eksik verilerin işlenmesini oldukça şeffaf hale getirir.
Bunun yerine, CRT eksik bir değerle karşılaştığında, bu vakanın sol dala mı yoksa sağ dala mı katılması gerektiğini belirlemeye çalışır. Taşıyıcı anneler kullanmanın çözümünün harika yanı, çok kesin bir yaş tahmini gerektirmemesidir. İyi bilinen bir teknik olan impütasyon, yolcunun yaşını tahmin etmeye çalışmayı, 5 yaşında veya 48 yaşında gibi bir tahmin üretmeyi içerir.
Taşıyıcı anneler söz konusu olduğunda, sadece, az önce tartıştığımız eşik olduğundan, yolcunun 13 yaşından küçük mü yoksa daha büyük mü olduğunu belirlememiz gerekiyor. CRT, bu belirlemeyi yapmamızı sağlayan ağaç için belirtilen değişkenler arasından beş değişken tanımlar.
Örneğin, eşleri veya kendi çocukları ile seyahat ediyorlarsa, 13 yaşından küçük olmaları kesinlikle olası değildir. Her düğümde en fazla beş vekil bulunur ve açıkçası, eksik olana bağlı olarak bunlar farklı olacaktır. Beş değişken, eksiksiz verilerin, eksik bilgilerle en çok ilişkili olduğunu ortaya koyduğu beş değişken olacaktır.
CRT Ayarlarını Değiştirme
Daha büyük veya daha küçük bir ağaç oluşturmak için CRT ile bir dizi ayarı değiştirebiliriz. Maksimum derinliği veya ebeveyn/alt ayarlarını değiştirebiliriz. Bu ayarın artırılması veya azaltılmasının etkisine ilişkin bir koçluk çizgisine sahip olan CRT sekmesinde bulunan “kirlilikteki minimum değişiklik”i de değiştirebiliriz: “Büyük değerler daha büyük ağaçlar üretme eğilimindedir.” Daha fazla veya daha az ondalık basamağa sahip olmak için önce bir sıfır (veya iki) eklemeyi veya bırakmayı deneyin.
Eksik veri tamamlama yöntemleri Kayip veri Nedir Kayıp değerleri düzeltilme yöntemleri Kayıp veri analizi Kayıp veri grafiği R da eksik veri Spss de kayıp veriler nasıl bulunur SPSS kayıp veri