CHAID Algoritması – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri
Güçlü ve Sezgisel: IBM SPSS Karar Ağaçları
Artık Yapay Sinir Ağlarını gördüğümüze göre, başka bir tekniğe geçeceğiz. Karar ağaçları, birden fazla algoritmayı temsil ettikleri için bir teknikler sınıfı olarak daha doğru bir şekilde düşünülür. Bu bölümde göreceğimiz şeylerin temelini oluşturan bölüm. Veri madenciliğinde yeniyseniz, genel olarak oradan başlamak isteyebilirsiniz.
IBM SPSS Karar Ağaçları dört “Büyüme Yöntemi” sunar: CHAID, Kapsamlı CHAID, CRT ve QUEST. C5.0 Ağacı uzantısı komutu, beşinci bir olası seçenek sunar. Uzantı komutları tartışılacaktır. Yalnızca CHAID ve CRT’yi göstereceğiz, ancak her birinin birden fazla yinelemesini çalıştıracağız. CHAID ve CRT, karar ağacı yaklaşımının iyi bir şekilde anlaşılmasını sağlayacak şekilde birbirine karşı bir dizi karşıtlık sağlar.
Hem CHAID hem de CRT’nin ayarlarını değiştirerek, farklılıkların daha da netleşmesini sağlayacaktır. İkisinin daha derinden anlaşılması, beşinin hepsinin kısa bir girişinden daha tatmin edici bir giriş olduğunu kanıtlayacaktır. (Adından da anlaşılacağı gibi Exhaustive CHAID’in CHAID’e oldukça benzediğini unutmayın.) Son olarak, bölümün sonunda Puanlama Sihirbazını göstereceğiz.
CHAID Algoritması ile Ağaç Oluşturma
Titanic_Results.sav veri kümesini (bu bölümün indirmelerinde mevcuttur) ve sona yakın oluşturulan aynı bölüm değişkeni Train_Test’i kullanacağız. Gösterildiği gibi, Pclass, Age, Sex ve Parch (ölçek olarak) Bağımsız Değişkenler olarak seçilecektir. Bununla birlikte, bir bölüm değişkeni kullanan Eğitim/Test doğrulaması tek yöntem değildir ve alternatifler, bu bölümün sonuna yakın “Alternatif Doğrulama Seçenekleri” bölümünde ele alınmaktadır.
Not: Bölüm 13, 14 ve 15’in sonuçlarını karşılaştırmamıza izin vermek için bu kitabın III. Bölümünde aynı bölümleme değişkenini kullanıyoruz. Son bölümde üç bölümden üç tekniğin yan yana karşılaştırması gösterilmektedir.
Doğrulama alt menüsü düğmesinin seçili olduğuna dikkat edin. Bir sonraki alt menüye geçiyoruz. Şekilde ölçüm seviyesini gösteren değişkenlerin yanındaki sembollere dikkat edin. Değişken Görünümdeki farklı ölçüm bildirim seviyeleri, algoritma nominal, sıralı ve sürekli bağımsız değişkenleri farklı şekilde ele alacağından farklı bir ağaçla sonuçlanabilir.
Bu yeni tekniğe alışırken bu gibi değişkenleri kısıtlamak geçicidir. Temel bilgileri gözden geçirdiğimizde, mevcut tüm değişkenleri kullanacağız. Ağaç algoritmaları, model oluşturmanın bir parçası olarak özellik seçimini gerçekleştirmede genellikle oldukça iyidir.
Cart algoritması Nedir
CART algoritması örnek
Ağaç algoritmaları
Karar ağaçları
Karar Ağaçları Parametreleri
Karar ağacı Veri Madenciliği
Karar ağacı oluşturma programı
Decision Tree Nedir
Belirtildiği gibi, modeli birkaç kez tekrarlamanın nasıl bir şey olduğunu göstermek için birkaç yineleme gerçekleştireceğiz. İstatistikte, birinin sonucuna olan güven, teori tarafından önerilen tek bir yaklaşımı dikkatli bir şekilde seçmesinden gelir.
Bu tahmine dayalı modelleme tekniklerini kullanırken titizlik, sistematik olarak tüm makul seçenekleri denemekten, denediğiniz şeyi dikkatlice belgelemekten ve tüm girişimleri bir bekleme örneğine (veya N-katlama doğrulaması gibi benzer alternatif yaklaşımlara) karşı doğrulamaktan gelir. Nihai modelin seçimi, teorik gerekçelerle değil, ampirik olarak gerekçelendirilir.
Bölüm değişkeni, gösterilen Doğrulama alt menüsünde bildirilir. Harici bir değişken kullanmak varsayılan değildir, ancak gerekli seçim kolayca belirtilir. “Değişken kullan”ı seçin ve Train_Test ile “Split Sample By” yapacağımızı belirtin.
Aksi takdirde, modelin varsayılanlarda çalışmasına izin vereceğiz. Çıktı penceresindeki sonuç bize gösterilen Eğitim Örneği ağacını ve ayrıca gösterilen Test Örneği ağacını gösterir. Şekil yalnızca Eğitim Örneği kullanılarak oluşturulduğundan, iki ağacın şekli aynı olacaktır. Ancak, ağaç bir kurallar dizisi olarak düşünülebilir. Örneğin, bu kural:
Kadın ve Birinci/İkinci sınıf ise, Hayatta Kalma diğer herhangi bir veriye uygulanabilir. Dolayısıyla, Test Numunesi ağacı aynı kurallara karşılık gelecek şekilde aynı şekle sahiptir, ancak değerler Test veri kümesinden çizilir, bu nedenle kesin değerler biraz farklı olacaktır. Ancak, Eğitim ve Test veri kümeleri rastgele seçildiğinden, yapısal olarak aynıdırlar, aynı değişkenlere ve aynı olası kategorilere sahiptirler. Tahminlerde bulunmak için ağaç modelini kullandığınız gelecekteki herhangi bir veri kümesi de aynı değişkenlere ve kategorilere sahip olacaktır.
Örneğin, Birinci veya İkinci sınıfta kadın yolcuları içeren kuralı ele alalım, Eğitim Örneği’nde hayatta kalma oranı %95,5, Test Örneği’nde ise %93,2 ile biraz daha düşük. (İlgili bilgi her iki durumda da Düğüm 3’tedir.) Hazır buradayken, Eğitim Örneği’ni kullanarak ağacın biraz daha detayını inceleyelim. Eğitim Örneği ağacının gösterilen ağaç olduğunu unutmayın.
Aşağıdakileri gözlemliyoruz:
■ “Kök Düğüm” (Düğüm 0) toplam 608 örneklem büyüklüğümüz olduğunu ve bunun %38,7’sinin hayatta kaldığını ortaya koymaktadır.
■ En önemli değişkenler bu sırayla Cinsiyet ve Psınıfı’dır.
■ Dört “yaprak düğüm” vardır (Düğüm 3, 4, 5 ve 6). Numune boyutları toplamı 608’e kadar çıkar ve numunenin birbirini dışlayan ve kapsamlı bir segmentasyonunu temsil ederler.
■ En düşük hayatta kalma oranı Düğüm 6’da (%15,9) ve en yüksek (%95,5) Düğüm 3’te bulunur.
“Risk” sadece bir yanlışlık ölçüsüdür. Eğitim örneği için neden .78 doğru yerine .22 yanlış rapor ediliyor? Bunun nedeni, standart bir hata ile birlikte rapor ederek, bunun etrafında bir güven aralığı oluşturabilmenizdir. Başkalarına rapor verirken, eğitim doğruluğu ile test doğruluğu (burada %78,0 ve %80,2) ve test doğruluğunun karşılaştırılması şeklindeki kararlılık daha göze çarpan gerçekler olacaktır.
Test örneğinin doğruluğu, “görünmeyen” verilere dayandığından özellikle önemlidir, ancak en muhafazakar yaklaşım, ikisinin daha düşük doğruluğunu bildirmektir. Bu sonuç kararlı olarak kabul edilebilir, ancak ikisi arasında daha yakın bir doğruluk düzeyi arzu edilirdi. Başka bir deyişle, test doğruluğu tamam, ancak daha iyisini yapmak güzel olurdu.
Bununla birlikte, test doğruluğunun eğitim doğruluğundan bile daha iyi olması, modelin kesinlikle kararlı görünmesini sağlar. Test doğruluğu, eğitim doğruluğundan çok daha kötü olsaydı, kararlılık konusunda endişelenirdik.
Ağacın çok fazla büyümemesi dikkat çekicidir. Sadece dört yaprak düğümümüz var. Ayarlarımızda bazı değişiklikler yapacağız ve buna bir şans daha vereceğiz. Ancak önce, CHAID’in ağacı üretmek için perde arkasında ne yaptığını gözden geçirelim.
Ağaç algoritmaları Cart algoritması Nedir CART algoritması örnek Decision Tree Nedir Karar ağacı oluşturma programı Karar ağacı Veri Madenciliği Karar ağaçları Karar Ağaçları Parametreleri