Bölümleme ve Doğrulama

Uzantı Komutu Nedir? – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri

Bir model oluşturduğumuzda, onun yeni veri kümelerine genelleneceğinden nasıl emin olabiliriz? Veri madenciliğinde, mümkün olan en bariz eylem olduğuna inandığım şeyi alıyoruz; ikinci bir veri kümesi kullanıyoruz. Bunu başarmak için orijinal verilerimizi iki bölüme ayırıyoruz. Train veri kümesi adı verilen ilk bölümde, modelleme algoritmalarımızın kalıpları keşfetmesine izin veriyoruz. Test veri setimiz olarak adlandırılan ikinci kısımda modelimizin genellediğini doğrularız. Gerçekten daha basit olamazdı.

Bu aslında şu soruyu gündeme getiriyor ve kendimize, istatistik yaparken aynı sorunu önlemeye çalıştığımızda nasıl bir önlem alıyoruz? Hiç de basit bir süreç değil. İstatistiksel tekniklerin rutin kullanıcıları olarak bunu öğrendik, ancak genellikle bekleme doğrulaması ile yan yana karşılaştırmamız gerekmiyor. Bunu Tip I hata tartışmamızda zaten keşfetmiştik, ancak esasen yaptığımız şey, sonuçlarımızı ek veri kümelerinin olasılıksal bir temsiliyle karşılaştırmaktır.

Bu nedenle, bu yaklaşımı kullanırken dağıtım varsayımlarını karşılamak çok önemlidir. Materyal de bunu keşfetmeye yardımcı olacaktır çünkü bu teknikler bu konuyu ele almanın üçüncü bir yolunu temsil etmektedir. Üç yaklaşımı şu şekilde özetleyebiliriz:

1. Hold-Out Validation, gerçek bir ikinci “Test” veri kümesi oluşturmak için rastgele atama kullanır.
2.Geleneksel HipotezTestleme, ikinci bir Test veri kümesi için dağıtım varsayımlarını temsil eder, daha doğru bir anlamda tüm veri kümeleri koleksiyonu için bir vekildir.
3. Önyükleme ve Monte Carlo Simülasyonu, orijinal veri kümesinden aynı verileri kullanarak karşılaştırma için çok sayıda veri kümesi oluşturmak üzere rasgele sayılar kullanır. Veri kümelerinin toplanması, oluşturulacak hemen hemen her istatistiğin dağılımına izin verir.

SPSS Modeler, Hold-Out Validation’ı gerçekten çok basit hale getirir. İlk vaka çalışması veri kümesini, ünlü Titanik veri kümesini ele alalım. Örnek büyüklüğümüzün kader gecesindeki yolcu sayısından daha küçük olduğunu hatırlayın.

Bölümün en başında SPSS Modeler hakkında biraz bilgi edinmiştik. Şimdi, kelimenin tam anlamıyla geri zum yapalım ve tüm arayüzün “tuvalinde” oturan küçük bir akış görelim. Modelleyici, görüntüye boyut olarak hakim olan tam Tcanvas alanından oluşur: bir araç çubuğu ve menüler, altta “düğümler” koleksiyonlarıyla dolu bir dizi “palet” ve sağda çalışma ürünümüzü düzenlediğimiz bazı alanlardır.

Ayrıntılar bizim için önemli olmayacak çünkü amacımız ana görevleri gözden geçirmek ve SPSS Modeler’ın bu görevleri gerçekleştirmek için özel olarak tasarlanmış özel menüleri olduğunu not etmek gerekir. Görevleri daha iyi anladığımızda, onları SPSS Statistics’te nasıl taklit edeceğimizi öğreneceğiz.

Akışa daha yakından bakalım. Daha önce “train.csv” etiketli dairesel kaynak düğümü gibi bir düğüm görmüştük. Verilerimizin nerede olduğunu gösterir ancak SPSS Statistics’te açtığımız anlamda veriyi açmaz, bu nedenle kısaca inceleyeceğimiz tablo aslında verilerimizin görmemizi sağlayan bir çıktı ekranıdır. Bölüm düğümü şu anda odak noktamız ve bu göreve ayrılmış bir arayüz görüyoruz. Aslında, sadece Tamam’a tıklayın ve makul bir sonuç alacaksınız.

Veri doğrulama Nedir
Excel Veri doğrulama ingilizce
Veri doğrulama nasıl yapılır
Excel Veri doğrulama kaldırma
Excel Veri doğrulama Nedir
Veri doğrulama Eğer formülü
Excel Veri doğrulama özel formül
Veri doğrulama liste

Çoğu Modeler düğümü, makul varsayılanlara sahip çok özel görevlere adanmıştır, bu nedenle bazen tek yapmanız gereken bunları uygun yerlerine bağlamaktır. Bu vaka, modelimizi oluşturmak için verilerimizin yarısını “eğit” veri kümesine atamak için yaygın olarak benimsenen stratejiyi kullanır ve “test” veri kümemizin yarısı, modelimizin görünmeyen verilere etkili bir şekilde genelleştiğini doğrulamak için kullanılır. Etkileyici olan sadece bu düğüme herhangi bir talimat vermememiz değil, Modelleme düğümlerine veya değerlendirme düğümlerine de herhangi bir talimat vermememizdir.

Çoğu durumda, tüm “aşağı akış” düğümleri, varsayılanlarda oldukça uygun şekilde davranır ve bölümlerle ne yapılmasını istediğimizi açıkça belirtmek için herhangi bir işlem yapmamız gerekmez. Verilerimizin rastgele iki yarısını oluşturmak SPSS Statistics’te kolay bir iştir, ancak tüm süreç SPSS Statistics’te daha fazla iş gerektirir çünkü arayüzün geri kalanı bölümlerle ne yapılmasını istediğimizi otomatik olarak tanımaz.

Kısaca, ihtiyacımız olan şey modelleme algoritmalarının test verilerini yok saymasını, ancak değerlendirme düğümlerinin her iki veri setini de kullanıp ayrı ayrı raporlamasını sağlamaktır. Hepsi otomatik olacak. Verilere bakarsak, şimdilik her vakayı bir gruba veya diğerine ait olarak işaretlediğini görüyoruz. Gösterildiği gibi, sadece 10 yolcuyu ve değişkenlerin sadece bir kısmını gösteren veriler, ilk 10 kişiden 7’sinin Eğitim bölümüne atandığını göstermektedir. Bölme düğümünden geçen veriler tarafından oluşturulan bu yeni değişken, bu durumu, sonunda akışa eklenecek olan diğer düğümlere iletecektir.

Öznitelik Seçimi

İstatistikte, özellik seçimi konusu, girdi değişkenleri (bağımsız değişkenler) bölümü tamamen farklı bir biçim alır. İstatistik yaparken tipik olarak hipotezleri test edeceğimiz için, bağımsız değişkenlerimiz arasına hangi değişkenlerin dahil edileceğinin seçimi teorimize, literatür incelememize ve araştırma tasarımımıza dayanmaktadır.

Çoğu analist, baskı yapıldığında, verileri inceledikten sonra modelleme sürecinde modellerine değişken eklediklerini veya çıkardıklarını kabul edecek olsa da, hepimiz bunun tehlikeli bir uygulama olduğunu kabul ediyoruz. Haklı olarak, bir tür balık avı olarak tanımlanabilirdi. Aşırıya kaçıldığında, bazı araştırmacılar, kapalı kapılar ardında, modeli optimize edene kadar bağımsız değişkenlerin kombinasyonunu her şekilde deneyerek bir tür “en iyi alt kümeler” yaklaşımını manuel olarak uygulayacaktır. Bu tehlikelidir ve doğru yaklaşıma benzemez.

Veri madenciliği yaparken, işin püf noktası, tüm makul değişkenleri sistematik olarak denemek ve modeli test bölümüne göre doğrulamaktır. Buradaki sorun, “tüm değişkenlerin” yüzlerce, hatta daha fazla olabileceğidir. Bazı algoritmalar için onu daraltmamız gerekir, ancak bunu bir önseziyle yapamayız ve bunu hipotezlere dayalı olarak yapamayız. Bu yüzden onu daraltmalıyız, ancak ampirik olarak, hedefle ve veri kalitesiyle olan ilişkinin gücüne dayanarak. SPSS Modeler, akışa dahil edilmiş olarak gösterilen Özellik Seçimi düğümü olan tam da bunu yapmanın bir yolunu sağlar. Aşağıdaki iki nedenden dolayı dikkatli kullanılmalıdır.

akademi22 akademi22

Biyografinin Tamamını Gör

Excel Veri doğrulama ingilizce Excel Veri doğrulama kaldırma Excel Veri doğrulama Nedir Excel Veri doğrulama özel formül Veri doğrulama Eğer formülü Veri doğrulama liste Veri doğrulama nasıl yapılır Veri doğrulama Nedir

Bölümleme ve Doğrulama – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri