Veri Madenciliği

Gelecekteki durumları sınıflandırmak için tahmine dayalı analitiği kullanmanıza yardımcı olabilecek bu algoritmalara ek olarak, destekleyici rutinler verilerinizi hazırlamanıza ve keşfetmenize yardımcı olur. Hem Optimal Gruplama hem de Olağandışı Durumları Tanımlama, SPSS Modeler’daki benzer prosedürlerle neredeyse aynıdır. Bölüm 12, istatistikler için veri hazırlamaya odaklanmaktan çok birçok yönden veri madenciliği için veri hazırlamaya gerçekten daha fazla odaklanan SPSS Veri Hazırlama modülünün bazı özelliklerini araştırıyor.

İstatistiksel analiz için veri hazırlamaktan ne kadar korksak da, mütevazı sayıda bağımsız değişken, çaba miktarını yönetilebilir bir şeyle sınırlar. Tahmin edicilerin sayısı arttığında, uygun veri hazırlama çabası genellikle bir miktar otomasyon gerektirir.

Bununla birlikte, tahmine dayalı analitik, yalnızca en son algoritmalarla ilgili değildir. Veri madenciliği yaparken bir projeyi düşünmenin oldukça farklı bir yolu vardır. “Veri Madenciliği için Sektörler Arası Standart Süreç (CRISP-DM)”, veri madenciliğine yönelik ücretsiz, yazılımdan bağımsız ve sektöre özgü olmayan bir yaklaşımdır. Modeler’ın yaklaşımını ve SPSS Statistics’in yaklaşımını paralel olarak inceleyeceğiz. Bu şekilde veri madenciliğinde bazı temel adımları öğrenebilir, SPSS Modeler’a göz atabilir ve aynı adımlardan bazıları için SPSS’nin hangi seçenekleri olduğunu görebiliriz.

MODELLER TARİHÇESİ

SPSS Inc., Modeler’ı yaratan ve daha sonra orijinal adı Clementine olarak adlandırılan şirketi satın almadan önce Modeler’ın tamamen farklı bir kurumsal ve gelişim geçmişi vardı. 90’ların başında bir İngiliz şirketi olan ISL, sinir ağları ve ID3 Karar Ağacı algoritması ile başlayan bazı veri madenciliği algoritma yazılımları sundu ve aniden kendini danışmanlık işinde buldu.

Colin Shearer, ISL için yeni veri madenciliği uygulamasının başına geçti ve sonunda ortaya çıkan bir ihtiyacı karşılamak için Clementine’i yarattı: “Veri madenciliği projelerinin çok fazla sıkı çalışma gerektirdiğini ve bu çalışmaların çoğunun sıkıcı olduğunu keşfettik. Önemli kalıpları ortaya çıkarmak ve doğru tahminler sunmak… bu kısım eğlenceliydi. Ancak çabalarımızın çoğu, verileri uyguladığımız çeşitli modüller ve algoritmaların gerektirdiği biçimlere dönüştürmek gibi sıradan görevlere gitti.”

Colin’s’in ISL’deki bir meslektaşı olan Tom Khabaza, sonunda Colin ve bir dizi büyük Avrupa şirketinden oluşan bir konsorsiyum ile birlikte “Veri Madenciliği için Sektörler Arası Standart Süreç”in ortak yazarlığını yapacaktı.

“The Story of Clementine” adlı kitabında Clementine’in tasarımının ilham kaynağını şöyle açıkladı: “Bu projeler birbirini takip ettikçe, aynı kodlama görevlerini tekrar tekrar yaptığımız ortaya çıktı; ISL ayrıca görsel programlama içeren bazı Ar-Ge projelerinde yer almıştı ve Clementine bu iki başlıktan doğdu.

Colin Shearer’ın Clementine için tasarladığı tasarım, belirli projeler için geliştirdiğimiz modüllerin yeniden kullanılabilir versiyonlarını bir görsel programlama arayüzüyle birleştirdi ve bu modülleri bir veri madenciliği süreci oluşturmak üzere ‘birleştirmeyi’ son derece kolay hale getirdi.”

Veri madenciliği konu anlatımı
Regresyon Nedir veri madenciliği
Veri madenciliği Nasıl Yapılır
Veri madenciliği süreçleri
Veri madenciliği is ilanları
Data Mining Nasıl Yapılır
Data mining
Denetimsiz veri madenciliği

Modeler’ın kritik bir özelliği de, belki de SPSS İstatistikleri ile en keskin karşıtlığıdır. Shearer: “Öngörülü modellerin görsel iş akışı içinde diğer ‘araçlar’ ile aynı statüye sahip olması ve çıktılarının birinci dereceden veri olarak ele alınması gerektiğine dair önemli bir tasarım kararı aldık. Bu basit bir nokta gibi görünüyor, ancak yankıları çok büyük.

Modelinizin performansının temel analizinden daha fazlasını mı istiyorsunuz? Çıktısını tezgahtaki araçlardan herhangi biri aracılığıyla sorun değil. Sinir ağınızın içinde neler olup bittiğini merak mı ediyorsunuz? Girdi kombinasyonlarının çıktı değerleriyle nasıl eşleştiğini size söylemek için kural tümevarımını kullanın. Birden fazla modelin ‘oy’ almasını ister misiniz? Kolay. Bunları daha karmaşık şekillerde birleştirmek ister misiniz? Girdilerini, istediğiniz herhangi bir veriyle birlikte, tahminlerini en iyi nasıl birleştireceğine karar verebilecek bir “süper modele” besleyin.”

Hipotez Testi, Tip I Hata ve Bekleme Doğrulaması

Klasik hipotez testi, neredeyse tüm istatistiksel analizlerin temel taşıdır. Veri madenciliğinde rolü oldukça farklıdır ve istatistikçiler ilk veri madenciliği projeleri sırasında tökezlediklerinde, bunun nedeni genellikle bu konuyu çevreleyen zorluktur. Nasıl çalıştığına dair hızlı bir hatırlatma sağlar, ancak daha kapsamlı bir incelemeye ihtiyacınız varsa, İnternet bu konuyla ilgili videolar ve tartışmalarla dolup taşmaktadır.

Buradaki “incelemenin” motivasyonu, gerçekten onu alternatiflerle karşılaştırmaktır. Ancak, veri madenciliği tekniklerini kullanırken bunu bu şekilde yapmayacağımızı unutmayın; alternatifleri takip edeceğiz, bu nedenle veri madenciliği sırasında hipotez testinin olmaması sizi rahatsız etmedikçe bunu şimdi gözden geçirmeniz gerekmeyecektir.

Diğer istatistikçilerle konuşurken genellikle kullandığımız hipotez testi tanımları, “boş hipotezi reddetme” veya “boş hipotezin doğru olma olasılığı” gibi ifadeleri içerir, ancak veri madenciliğinde boş hipotezimiz yoktur ve Olasılığa güvenmek oldukça sorunludur. Başka bir yola ve daha geniş bir tanıma ihtiyacımız var. Hem istatistik hem de veri madenciliği için geçerli olması için Tip I hatanın arkasındaki sorunu yeterince geniş bir şekilde tanımlamamız gerekiyor. Neyse ki, bunu yapmak kolaydır.

Hem istatistikte hem de veri madenciliğinde, örnek verilerimizdeki genelleme yapamayacak, yani gelecekte diğer veri kümelerinde bulunamayacak kalıpları taramak istiyoruz. Bu gerçekten bir Tip I hata: genelleme başarısızlığı. İstatistikte, hipotez testleri, dağılım varsayımları ve olasılığı gerçekleştirmeden önce hipotezleri belirleyerek, tutumluluk kombinasyonu yoluyla problemden kaçınırız. Veri madenciliğinde, rastgele seçim kullanır ve modelimizi bir veya daha fazla ek veri kümesine karşı doğrularız.

Bir örnek inceleyelim. Ünlü Titanik felaketinden elde edilen veriler bize yardımcı olacaktır. Bu bölümü destekleyen veri dosyası Titanic.sav’in gemideki yolcuların yaklaşık yarısını temsil ettiğini unutmayın. Bu veri kümesini kullanarak kaggle.com’da rekabet etmeye karar verirseniz, yolcu listesinin ikinci yarısını bir “Test” veri kümesi olarak alıkoymuşlardır. İngiltere, Fransa ve İrlanda’daki üç biniş yerinin her birinin farklı bir ücret ödeyen farklı bir yolcu karışımına sahip olduğu ve dolayısıyla farklı bir sınıfta olduğu hipotezini test edelim. Eğer haklıysak, o zaman üç biniş noktası için hayatta kalma oranları farklı olabilir.

Spekülasyonun çok karmaşık hale gelmesine izin vermeyeceğiz; sadece bu üç grup için ücretin farklı olduğuna dair bir hipotezimiz var, bu yüzden önceki bölümde gördüğünüz ANOVA örneğine çok benzer şekilde SPSS’de bir Varyans Analizi (ANOVA) çalıştırıyoruz. Ve tabii ki, olasılık hesaplaması, sıfır hipotezimizin (bunların aynı olduğuna dair) muhtemelen yanlış olduğunu gösteriyor, bu yüzden onların farklı olduğu sonucuna varıyoruz. işte. ANOVA sonuçlarına istinaden, genel anlamlılığın anahtar sayısı (Sig etiketli) sıfır ila üç ondalık basamaktır, .05’in oldukça altındadır ve istatistiksel anlamlılığı gösterir.

akademi22 akademi22

Biyografinin Tamamını Gör

Data mining Data Mining Nasıl Yapılır Denetimsiz veri madenciliği Regresyon Nedir veri madenciliği Veri madenciliği is ilanları Veri madenciliği konu anlatımı Veri madenciliği Nasıl Yapılır Veri madenciliği süreçleri

Veri Madenciliği – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri