Dengeleme – SPSS Ödevi Yaptırma – SPSS Analizi Yaptırma Fiyatları – SPSS Örnekleri – Ücretli SPSS Analizi Yaptırma – SPSS Analizi Yaptırma Ücretleri
Kaybolma Riski
Birincisi, güç, etkileşimlerin kaybolması riskini taşıyan iki değişkenli çiftler kullanılarak ölçülür. İkincisi, veri kalitesi, hangi değişkenlerin onarılabileceğini ve hangi değişkenlerin çıkarılması gerektiğini değerlendirmez. Hangi algoritmaların bu ön işleme adımına diğerlerinden daha fazla ihtiyaç duyduğu büyük bir konudur ve bu tartışmanın kapsamı dışındadır.
Bununla birlikte, bazı algoritmaların yüzlerce değişkeni kabul etmekten ve hangi değişkenlere ihtiyaç duyduğunu seçmekten oldukça memnun olduklarını basitçe belirterek özetleyebiliriz. Bununla birlikte, bazı tekniklerin buna diğerlerinden daha duyarlı olmasına rağmen, veri kalitesinin hemen hemen tüm teknikleri etkilediğini unutmayın. Basit örnekler, tüm verilerin boş veya boş olduğu durumları içerir. Bir diğeri, kategorik bir değişkenin yalnızca bir değeri olduğu zamandır. Tartışmayı, Özellik Seçimi düğümünün ne ve nasıl yaptığıyla sınırlayacağız.
Survived yazısına sahip beşgen şeklindeki bir düğüm ve aynı başlığı taşıyan elmas şeklindeki bir düğüm akışta görülebilir. Pentagon düğümü, içinde ayarlar ve menüler bulunan modelleme düğümüdür ve işlemi altın renkli pırlantayı (altın madenciliğinde olduğu gibi bazen “nugget” olarak adlandırılır) yarattı. Elmasın içinde (düğüm düzenlenerek görülüyor) ne yapmaya çalıştığına dair bir fikir ediniyoruz.
Sonuçlar, değişkenlerin hiçbirinin taranacak yeterli veri kalitesi sorununa sahip olmadığını gösteriyor: “0 Taranan alanlar.” Bazı çaylakların yaptığı hata, bu değişkenlerden çok çabuk vazgeçmektir. Daha iyi veri temizliği, bu tür taranan alanların kurtarılmasına izin verebilir. Örneğin, birçok durumda bir boş değerin gerçekten sıfır değeri olduğu bilinir.
Bu, işlem verilerini müşteri düzeyindeki verilere dönüştürürken çok yaygındır. Yüzlerce varsa, sorunlu alanları düzeltmenin aciliyeti olmadığı düşünülebilir. Bu bir hata olur. Her değişken, dışarıda bırakılması gerektiğine dair gerçek kanıtınız olana kadar dahil edilme olasılığını hak eder. Genel olarak, istatistikte değişken seçimi ile veri madenciliğinde değişken seçimi arasındaki farkı şu şekilde özetleyebilirsiniz: İstatistikte yalnızca dahil edilecek kanıtımız olduğunda dahil ederiz ve veri madenciliğinde hariç tutacak kanıtımız olana kadar dahil ederiz.
Ayrıca Sex’in en iyi tahmin edici olduğunu keşfediyoruz ve bu, bu ünlü kaza hakkında bildiklerimizle uyumlu görünüyor, ancak normalde bu sıralamaya biraz şüpheyle yaklaşırdık çünkü bu iki değişkenli ilişkilere dayanıyor. Gerçek sihir, çok değişkenli ilişkileri modellediğimizde gerçekleşir. Ölçeklenebilir, daha az karmaşık ve uygun olduğu için iki değişkenli ile başlıyoruz. Risksiz değildir.
Bu tür modellemede etkileşimlerin kritik olduğunu biliyoruz. Son olarak, yolcuyla birlikte seyahat eden kardeş ve eş sayısı olan Yaş ve SibSp “önemsiz” olarak kabul edildiğinden Modeler bunları otomatik olarak düşürdü. Büyük bir veri kümesiyle (kesinlikle 7 girişten daha büyük) bu özellik, akış yönünde iyi bir modelleme performansı elde etmek için gerekli olmalıdır.
Ne yazık ki, bunun ne kadarının gerekli olduğu algoritmaya o kadar özel ki, iyi kılavuzlar sağlamak gerçekten çok zor. Bir veya iki düzine girdinin, veri madenciliğinde yararlı olan herhangi bir teknik için nadiren bir sorun olduğu söylenebilir. Bazıları yüzle iyi başa çıkabilir, ancak yüzün üzerinde özellik seçimi olasılığını kesinlikle düşünürdüm.
Faktör Analizi gibi teknikler potansiyel olarak bir rol oynamaktadır. Veri madenciliği sürecinin zorlu bir aşamasıdır. SPSS Statistics Base, bu düğümün gerçekleştirdiği tüm ayrık işlevleri gerçekleştirme yeteneğine sahiptir, ancak bunu Base kullanarak yapmak yoğun emek gerektirir. Veri Hazırlama modülü çok benzer özelliklere sahiptir. Modülün iki özelliğini inceler, ancak bu özel düğümün eşdeğer işlemlerinin bir tartışmasını içermez.
Monte Carlo Simülasyonu örnekleri
Montaj hattı DENGELEME matematiksel model
Montaj hattı DENGELEME örnek problem
Monte Carlo Simülasyonu Excel örnek
Monte Carlo simulasyonu PDF
Monte Carlo yöntemi nedir
Monte Carlo simülasyonu Ders Notları
Monte Carlo Simülasyonu adımları
Dengeleme
Bazen, dengeleme ile karşılaştığında, veri madenciliğine yeni başlayanlar bunu biraz yapay buluyor. Buradaki fikir, nadir grupları ve ortak grupları eşit büyüklükte olmaya zorlamak. Örneğin, kalp hastalığına yakalanmanın temel itici güçlerini bulmaya çalışmak için bir algoritma kullanmadan önce kalp hastalığı olan grup ile kalp hastalığı olmayan grubu eşit büyüklükte olmaya zorlayabilir. Bununla birlikte, derinlemesine düşündüğümüzde, bu istatistiklerde sürekli yaptığımız bir şeydir.
Bunu veri toplama hazırlığında yaparken, buna “oversampling” diyoruz. ANOVA’da eşit büyüklükteki grupların arzu edildiğini hatırlayın, çünkü varyans varsayımının homojenliğini karşılamayı daha olası kılar. Belirli bir hastalığı olan çok sayıda hastayı anlamak istediğimiz için işe alma fikrine alışkınız ve daha sonra hastalığa yakalanmayanlardan eşit sayıda (ancak genel popülasyonun eşit olmayan bir oranı) işe alıyoruz.
Dengeleme o kadar da farklı değil. Bazen şaşırtan yön, bazı verilerin atılıyor olduğu fikridir. Hasta alımı senaryosunun aksine, veri madenciliğinde genellikle tüm verilere sahibiz, bu nedenle ihtiyacımız olandan çok daha fazla hastalığı olmayan hastamız olur. Her iki senaryoda da çalıştığı için yapıyoruz, verileri bu şekilde hazırlarsak algoritmalar daha iyi iş çıkarıyor. Ve daha iyi bir iş yapıp yapmadığını bileceğiz çünkü dengelenmeyecek olan test veri seti üzerindeki etkinliğini doğrulayacağız.
SPSS Modeler, yalnızca bu amaç için ayrılmış bir düğüme sahiptir. Survived hedef değişkeninin bir Dağılımı, bu yolcu örneğinin (geminin sadece yarısı) yaklaşık 1/3’ünün hayatta kaldığını göstermektedir. Dağıtım, çubuk grafikle birleştirilmiş Frekanslar raporuna çok benzer. Modeler, Generate menüsünü kullanarak, daha büyük grubun (ölenlerin) rastgele tutulacak oranını otomatik olarak hesaplar.
Bazılarını atarak ve kabaca eşit büyüklükte gruplar oluşturarak, neredeyse tüm algoritmaların daha iyi performans gösterme olasılığı vardır. Önceden tahmin etmek zordur, bu nedenle çoğu veri madenciliği kararları gibi ampirik olarak belirlenmelidir. Ancak, yeterince dengesiz olmadığı için çok az veri madenci bu veri kümesini dengeleyecektir. Denge dışı bir durum ne kadar aşırı bir soruna neden olur?
70/30 veya 80/20 oranı harekete geçebilir. Çok az kişi 90/10’daki bir durumu görmezden gelir. Yine, her iki yolu da denemek en iyisidir. Gösterilen Dağıtım düğümü sonuçları %61.62 ve %38.38’i gösterdi. Ek bir lojistik zorluk, modelimizin geçerli bir testinin, testin dengesiz veriler üzerinde yapılmasını gerektirmesidir. Modeler bunu aşağı yönde otomatik olarak yapar ve kolaylaştırır.
Bu durumda, eğer dengeleme gerekiyorsa, SPSS Modeler, hayatta kalan her birine %62,3 oranında kalma şansı verir. SPSS İstatistiklerinde bunu çok zorlaştıran şey, rastgele örnekleme olmayacaktır. Buradaki zorluk, tren veri kümesini dengelemek, ancak test veri kümesini dengelememek olacaktır: modelleme algoritmalarının dengeli veri kullanması ve değerlendirme düğümlerinin otomatik olarak herhangi bir dengelemeyi yok saymasını bilmesini sağlamak. SPSS Modeler bunu nispeten kolaylaştırır. Oluştur menüsünü kullanırsanız, matematiği sizin için yapar ve gösterilen Denge düğümü ile sonuçlanır.
Montaj hattı DENGELEME matematiksel model Montaj hattı DENGELEME örnek problem Monte Carlo Simülasyonu adımları Monte Carlo simülasyonu Ders Notları Monte Carlo Simülasyonu Excel örnek Monte Carlo Simülasyonu örnekleri Monte Carlo simulasyonu PDF Monte Carlo yöntemi nedir