CHAID Ayarlarını Ayarlama

Fonksiyonel Lineer Regresyon – MATLAB Ödevi Yaptırma – MATLAB Analizi Yaptırma Fiyatları – MATLAB Örnekleri – Ücretli MATLAB Analizi Yaptırma – MATLAB Analizi Yaptırma Ücretleri

CHAID Algoritmasının Gözden Geçirilmesi

İşaretlerin ilk bölünmüş değişken olduğunu unutmayın. Pclass yerine seçildi. Nedenini keşfetmek için, gösterilen Çapraz Tablo menüleri kullanılarak oluşturulan Çapraz Tablo sonuçlarına bakalım. Hem Cinsiyet hem de Psınıfı çok küçük ve .05’in oldukça altında Asimptotik Önem sonuçlarına (p değerleri) sahip olsa da, Cinsiyet için sonuç daha küçüktür. Bu yüzden cinsiyet ağacın en üst dalıdır.

Az önce CHAID’de en üst dalın en düşük p değerine verildiğini gördük, ancak gerçekte, Çapraz Tablo gösterimimiz bir adımı gizliyor. İlk olarak, sıra değişkenimizin herhangi bir kategoriyi daraltıp daraltmayacağına karar vermeliyiz. Ağaç diyagramlarına referans, çöküşün gerçekten meydana geldiğini gösterecektir. Ancak, sol dal ve sağ dal farklıdır.

Bu neden oluyor? Yanıtlamak için daha açıklayıcı bir Çapraz Tablo sonucuna ihtiyacımız var. Gösterildiği gibi, sadece kadınları incelerken Pclass çapraz tablosunun sadece erkekleri incelediğimizde farklı olduğunu göstermek için cinsiyete ayırmamız gerekiyor. Birinci sınıf ve İkinci sınıf dişiler için hayatta kalma oranının aslında çok benzer olduğunu fark ettik (%96.8 ve %92.1), bu nedenle CHAID algoritması önce onları daraltır ve yeni bir Ki-Sq p değeri için Psınıfının iki kategorili sürümünü kullanır (değil gösterilir).

Erkekler için, İkinci sınıf ve Üçüncü sınıf çok benzerdir (%15,7 ve %13,5), dolayısıyla CHAID algoritması bu iki kategoriyi daraltır. Ölçek değişkenleri ilginç bir sorun teşkil eder çünkü Ki-Sq ölçek değişkenlerini araştırmak için tasarlanmamıştır. CHAID kovaları, değişkenleri ondalık olarak ölçeklendirir (değiştirilebilen varsayılan bir ayar) ve ardından bunları sıralı değişkenler olarak ele alır.

Sonuçlar oldukça iyi çalışsa da, ondalık sayılar arasındaki sınırların esasen keyfi olduğunu kabul edin. İşlemdeki bu farklılıklar, bağımsız değişkenlerin ölçüm düzeylerinin daha ilk adımda doğru bir şekilde beyan edilmesi gerektiğinin önemli bir hatırlatıcısı olarak hizmet eder. Daha sonra, CRT’nin çok farklı bir yaklaşım kullanarak sınırları daha ayrıntılı bir hassasiyetle bulduğunu göreceğiz.

p DEĞERLERİ İLE İLGİLİ SORUN

İstatistik 101’de bize daha düşük p değerlerinin daha fazla “önem” anlamına gelmediği öğretildi, ancak birçok araştırmacının bulguları hakkında yazdıkları düzyazıda kendilerine yardım edemediğini de biliyoruz. Daha düşük bir p değeri, sıfırı reddetmek için daha güçlü kanıtlar sağlasa da, bir ilişkinin gücü gibi konulara ulaşmak için başka testler kullanma konusunda koçluk yapıyoruz.

Veya p değerinin yalnızca karşılanan veya karşılanmayan bir eşiği yansıttığı konusunda uyarılırız. Yine de, bulgulara %99,9 güvenilirlikte üçlü yıldız işareti ve bazı akademik makalelerde %95 güvenilirlik için yalnızca bir yıldız işareti veriyoruz. Olimpiyatlarda farklı yükseklikteki podyumlar akla geliyor. Bu biraz modası geçmiş ve çok tartışmalı hale gelmiş olsa da etkisi hala hissediliyor. Aslında CHAID’deki değişken sıralamanın temelidir.

Chaid analizi nedir
CHAID algoritması
CART algoritması
ROC analizi yorumlama
Rastgele Orman algoritması
Yapay sinir Ağları
Zeki Optimizasyon algoritmaları
Spss ROC analizi

CHAID zamana direnmiş ve hala popüler olsa da, bu p değeri sıralamasının bu kadar çok ondalık basamaktan sonra yapılması bizi duraklatmalı. CHAID’in “önem testi” kullanması, CRT’nin kullanmaması elbette bize özel bir rahatlık vermemelidir. Tahmine dayalı analitikte bazı yeniler, aslında başlangıçta p değerlerini kullanmayan modelleme tekniklerini kullanmayı reddediyor.

Bunların varlığı, geleneksel şekilde kullanılmadıkları için tekniğe herhangi bir özel statü kazandırmamalıdır. Modellerimizin değeri, algoritmalarına birkaç geleneksel bileşenin dahil edilmesiyle değil, Test veri kümesi biçimindeki yeni verilere genelleme yeteneklerinde gösterilecektir.

Ağacın daha agresif büyümesine izin vermek için, gösterildiği gibi 5 ve daha küçük Ebeveyn/Çocuk boyutlarında bir derinliğe izin vereceğiz. Sonucu daha esnek, hatta istatistikte kullanıldığı şekliyle daha “liberal” olarak da tanımlayabiliriz. Kısacası, ağaç daha fazla dal ve yaprak düğümü olan daha büyük bir ağaç haline gelecektir.

Ayrıca mevcut tüm bağımsız değişkenlerin kullanılmasına izin vereceğiz (gösterilmemiştir). Bu ayarlamalar hakkında sihirli bir şey yok. Örnek boyutumuz göz önüne alındığında, 100 ve 50 varsayılan ayarları biraz yüksektir. Maksimum ağaç derinliği 5 çok agresif mi?

3’ten daha agresif, ancak ilk denemede oldukça cimri bir ağaç elde ettiğimiz gerçeğine basitçe cevap veriyoruz, bu yüzden daha fazla dallı “çalı benzeri” bir ağaç elde etmeye çalışıyoruz. Daha agresif ayarlar kararsız bir ağaç üretiyorsa, başarısız bir deneyimiz var demektir. Daha doğruysa (çalı benzeri ağaçlar eğitim örneğinde her zaman daha doğrudur), ancak aynı zamanda kararlıysa (hem eğitim hem de test örneklerinde doğru), o zaman başarılı bir deneyimiz var demektir.

Ağaç çok genişledi. Ağacın üst yarısı (Tren Örneği) aynıdır. Sex and Pclass’a üç yeni değişken eklendi: Embarked Code, Age ve Ücret. Embarked Code, yolcunun Titanik’e bindiği yeri gösterir. Kuzey Atlantik’e girmeden önce Avrupa’da üç durak yaptı.

Yeni değişkenler daha ayrıntılı bir ağaç oluşturur ve şimdi daha önce Eğitim Örneği ağacımızda gördüğümüzden daha düşük hayatta kalma oranına sahip bir segmentimiz var. Düğüm 12’nin hayatta kalma oranı %9.5’tir. Yaşın bölündüğünü (veya daha doğrusu ondalıklarının iki kategoriye indirildiğini) unutmayın.

Yaşı eksik olanlar, 14 yaşından büyük yolcular gibi bir hayatta kalma oranına sahipler, bu yüzden CHAID onları bu grupla birleştirdi. CRT’nin çok farklı bir yaklaşımı olduğunu göreceğiz. Ücret de ondalıklarla başlayacak olsa da iki gruba indirildi.

Gösterilen sonuçları kullanarak bu örneğin doğruluğunu ve kararlılığını inceleyelim. Her zaman böyle olmayacak ama ikinci denemede çok daha iyi sonuçlar elde ettik. Bazen muhafazakar ve agresif ayarlar arasında bir uzlaşmaya ihtiyacınız olabilir. CHAID sekmesinde (gösterilmemiştir) gösterilen ayarları değiştirmeyi de seçebilirsiniz.

Bu ayarlar, %95 güven düzeylerinden %90 veya %99 gibi daha fazla veya daha az agresif bir değere geçmeyi içerir. %90’a düşürmek daha da büyük bir ağaca izin verir. %99’a yükseltmek, onu daha muhafazakar hale getirecek ve potansiyel olarak daha küçük bir ağaç ile sonuçlanacaktır.

Yalnızca CHAID algoritması için yarım düzine, hatta bir düzine farklı ayar sürümü olağandışı olmazdı. Daha doğru ve oldukça kararlı olduğu için (Testte daha iyi performans her zaman iyidir) bu model şimdi ilk sırada ve başka bir algoritma deneyeceğiz. Testte performansın hafif bir şekilde düşmesinin daha yaygın olduğunu belirtmekte fayda var. Testte daha iyi performansa sahip olmak daha az yaygındır. Bununla birlikte, daha önemli olan gerçek, sayıların oldukça benzer olması ve istikrarı göstermesidir.

akademi22 akademi22

Biyografinin Tamamını Gör

CART algoritması CHAID algoritması Chaid analizi nedir Rastgele Orman algoritması ROC analizi yorumlama Spss ROC analizi Yapay sinir Ağları Zeki Optimizasyon algoritmaları

CHAID Ayarlarını Ayarlama – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri