Makale İncelemesi
Temmuz 5, 2025 • 5 sayfa
Makale: Customer Churn Prediction in Telecommunication
Bağlantı: Makale, ResearchGate platformunda yayınlanmıştır.
Özet:
Bu makale, telekomünikasyon sektöründe müşteri kaybı (churn) tahminine yönelik veri madenciliği tekniklerini karşılaştırmalı olarak incelemektedir. Temel odak noktası, churn oranlarını önceden tahmin ederek şirketlerin müşteri kaybını azaltmasına katkı sağlamaktır. Çalışmada, özellikle Rotation Forest yöntemi, AntMiner+ ve C4.5 karar ağacı gibi algoritmalarla karşılaştırılmıştır. Veriler, ABD merkezli bir telekom şirketine ait 5000 müşteri kaydından oluşmaktadır. Makale, dengesiz veri setlerinin etkisini azaltmak için down sampling uygulamış, ardından farklı sınıflandırma yöntemlerinin doğruluk (accuracy), duyarlılık (sensitivity) ve özgüllük (specificity) oranlarını kıyaslamıştır. Rotation Forest algoritmasının, özellikle churn tahmininde en yüksek duyarlılığı sağlayarak diğer yöntemlerden daha başarılı olduğu sonucuna varılmıştır.
Yorum:
Makalede karşılaştırılan üç temel algoritma bulunuyor: Rotation Forest, AntMiner+ ve C4.5. Bu algoritmalar, hem orijinal veriyle hem de veri dengesizliğini gidermek amacıyla kullanılan down sampling ve oversampling yöntemleriyle test edilmiştir. Her modelin performansı, üç önemli metrikle değerlendirilmiştir: Accuracy (doğruluk), Sensitivity (duyarlılık) ve Specificity (özgüllük).
- Rotation Forest: Yeni nesil bir sınıflandırma algoritmasıdır. Çok sayıda karar ağacı (decision tree) modeli oluşturur, ancak her bir ağacı farklı veri alt kümeleriyle eğitir. Bu sayede hem çeşitlilik sağlanır hem de modelin öğrenme kapasitesi artar. Bu çalışmada, özellikle down sampling uygulandığında en yüksek duyarlılık (%84.57) değerine ulaşmıştır. Bu, churn riski yüksek müşterileri en doğru tespit eden yöntem olduğunu gösteriyor. Ayrıca orijinal veriyle kullanıldığında da duyarlılık %73.40 ile yine en üst düzeydedir.
- C4.5: Geleneksel bir karar ağacı algoritmasıdır ve "eğer-ise" kuralları üretir. Yorumlanması kolaydır ve iş kullanıcıları tarafından anlaşılabilir. Oversampling ile %80.82 duyarlılık oranına ulaşarak churn müşterilerini oldukça başarılı şekilde tahmin etmiştir. Ancak Rotation Forest’ın gerisinde kalmıştır.
- AntMiner+: Karınca kolonisi optimizasyonundan esinlenen bir algoritmadır. “Böl ve fethet” mantığıyla çalışır: önce tüm veriden bir kural çıkarır, bu kuralla kapsanan örnekleri veri setinden çıkarır ve kalan veriyle yeni kurallar üretir. Kurallara dayalı bir yapı sunduğu için anlaşılırdır; En yüksek özgüllük (%99.71) değerini orijinal veriyle elde etmiştir, yani churn etmeyecek müşterileri çok iyi tanımlar. Ancak duyarlılığı düşüktür (%37.09 orijinal veride, %65.76 oversampling ile). Yani riskli müşterileri kaçırma olasılığı yüksektir.
Yöntem | Accuracy (Doğruluk) (%) | Sensitivity (Duyarlılık) | Specificity (Özgüllük) |
---|---|---|---|
Rotation Forest (orijinal veri) | 95.68 | 73.40 | 99.49 |
C4.5 (orijinal veri) | 93.59 | 64.93 | 98.34 |
AntMiner+ (orijinal veri) | 90.85 | 37.09 | 99.71 |
Rotation Forest (down sampling) | 92.49 | 84.57 | 96.46 |
C4.5 (oversampling) | 91.66 | 80.82 | 93.45 |
AntMiner+ (oversampling) | 93.15 | 65.76 | 97.72 |
Burada dikkat edilmesi gereken nokta şudur: Accuracy (doğruluk) tek başına yeterli bir performans ölçütü değildir. Özellikle churn tahmininde asıl hedef, ayrılma riski olan müşterileri kaçırmadan tespit edebilmektir. Bu nedenle duyarlılık (sensitivity) metriği çok daha önemlidir. Rotation Forest, bu açıdan tüm varyasyonlarda en güçlü sonuçları vermiştir.
Makale ayrıca, orijinal veride churn oranının yalnızca %14,3 olması nedeniyle modellerin dengesiz veriyle başa çıkmakta zorlandığını vurguluyor. Bu sorunu çözmek için uygulanan down sampling ve oversampling teknikleri sayesinde, özellikle Rotation Forest ve C4.5 modellerinin duyarlılığı önemli ölçüde artmıştır.
Son olarak, model performansı yalnızca teknik bir başarı olarak değil, potansiyel iş etkisiyle de ele alınmıştır. Örneğin, 1 milyon müşterisi olan bir operatör şirketi için %15 churn oranı varsayıldığında, Rotation Forest’ın diğer modellere kıyasla fazladan 30.000 müşteriyi doğru tespit edebileceği ve bunun da yıllık milyonlarca dolarlık gelir kaybını önleyebileceği hesaplanmıştır.
Bu yönüyle makale, sadece algoritma kıyaslaması yapmıyor; aynı zamanda doğru metrik seçiminin, veri işleme yöntemlerinin ve model tercihinin işletme sonuçlarına doğrudan nasıl yansıdığını somut şekilde ortaya koyuyor.
Uygulama Fikri:
Bu çalışmada kullanılan churn tahmin modeli, benzer veri altyapısına sahip her şirket için uygulanabilir. Yani eğer bir şirketin elinde müşterilere ait şu bilgiler varsa — çağrı süresi, uluslararası görüşme kullanımı, müşteri hizmetleriyle iletişim sayısı, fatura tutarı, sesli mesaj tercihi gibi davranışsal ve demografik veriler — bu model doğrudan ya da küçük uyarlamalarla entegre edilebilir.
Örneğin, yüksek churn riski taşıyan müşteriler önceden belirlenerek sadakat programları, indirimli kampanyalar ya da kişiselleştirilmiş teklifler sunulabilir. Bu sayede hem elde tutma oranı artar hem de pazarlama bütçesi daha verimli kullanılır. Rotation Forest gibi duyarlılığı yüksek modeller sayesinde, promosyonlar sadece gerçekten riski olan müşterilere yöneltilir — bu da kaybı önceden öngörüp maliyeti minimize etme anlamına gelir.