Yapay Zeka

Kredi Onay Tahmini için Makine Öğrenmesi Modellerinin Karşılaştırma

İncele Kodlar
Kullanılan Teknolojiler:
Python XGBoost Random Forest Pandas Decision Tree Neural Network Logistic Regression Naive Bayes

Projede Kaggle üzerinde yayımlanan Realistic Loan Approval Dataset | US & Canada veri seti kullanılmıştır.

🔗 Veri Seti Bağlantısı:
https://www.kaggle.com/datasets/parthpatel2130/realistic-loan-approval-dataset-us-and-canada

Özellikler

  • Age (Yaş)
  • Income (Gelir)
  • Credit Score (Kredi Skoru)
  • Debt-to-Income Ratio (Borç / Gelir Oranı)

Hedef Değişken

  • Loan Status (Onaylandı / Reddedildi)

Problem, ikili sınıflandırma (binary classification) problemi olarak ele alınmıştır.


⚙️ Veri Ön İşleme

Aşağıdaki veri ön işleme adımları RapidMiner Studio kullanılarak uygulanmıştır:

  • Import Configuration Wizard ile veri setinin içe aktarılması
  • no_missing_attributes yöntemi ile eksik verilerin temizlenmesi
  • Sayısal ve kategorik veri türü dönüşümleri
  • Hedef değişkenin label olarak atanması
  • Uygun modeller için normalizasyon işlemleri
  • Kategorik değişkenlerin sayısallaştırılması (Nominal to Numerical)

🤖 Makine Öğrenmesi Modelleri

Çalışma kapsamında aşağıdaki sınıflandırma algoritmaları uygulanmış ve karşılaştırılmıştır:

  • Decision Tree (Karar Ağacı)
  • Random Forest
  • Naive Bayes
  • Yapay Sinir Ağları
  • Lojistik Regresyon

Karar ağacı tabanlı modellerde gain ratio bölünme kriteri kullanılmış; aşırı öğrenmenin önüne geçmek amacıyla pre-pruning ve post-pruning teknikleri uygulanmıştır.


📈 Model Değerlendirme

Modellerin genellenebilirliğini değerlendirmek amacıyla 5-Katlı Çapraz Doğrulama (5-Fold Cross Validation) yöntemi kullanılmıştır.

Kullanılan Performans Metrikleri

  • Accuracy (Doğruluk)
  • Precision (Kesinlik)
  • Recall (Duyarlılık)
  • Confusion Matrix

🧪 Deneysel Sonuçlar

ModelAccuracy (%)
Decision Tree89.22
Neural Network87.56
Logistic Regression86.38
Random Forest84.27
Naive Bayes83.20


📌 Tartışma

Deneysel sonuçlar, Decision Tree (Karar Ağacı) modelinin kredi skoru ve borç/gelir oranı gibi baskın finansal öznitelikleri açık ve yorumlanabilir karar kuralları ile modelleyebilmesi sayesinde en yüksek doğruluk oranına ulaştığını göstermektedir. Bu durum, karar ağaçlarını finansal karar destek sistemleri için oldukça uygun hâle getirmektedir.


⚠️ Sınırlılıklar

  • Kullanılan veri seti gerçek banka verilerini temsil etmemektedir.
  • SVM ve XGBoost gibi ileri seviye algoritmalar çalışmaya dahil edilmemiştir.
  • ROC-AUC ve F1-Score gibi ek performans metrikleri değerlendirilmemiştir.

🛠️ Kullanılan Araçlar ve Teknolojiler

  • RapidMiner Studio
  • Makine Öğrenmesi Sınıflandırma Algoritmaları
  • k-Fold Cross Validation
  • Kaggle Veri Seti