Contexto
Dataset de clientes de una compañía Telco, con información de perfil, servicios contratados, facturación y churn. Objetivo: predecir qué clientes tienen mayor probabilidad de darse de baja y analizar los factores que influyen en su abandono.
Objetivos del análisis
- Explorar el dataset y detectar valores nulos o inconsistencias.
- Limpiar y transformar las variables para modelado.
- Entrenar modelos de Machine Learning (Logistic Regression, Random Forest, XGBoost) para predecir churn.
- Interpretar los factores más importantes que afectan la baja de clientes.
- Analizar el impacto del churn sobre la cartera y la facturación.
- Segmentar clientes según su riesgo de abandono.
Estructura del análisis
- EDA en Python: limpieza de datos, análisis descriptivo, visualización de variables categóricas y numéricas.
- Modelado: separación de variables X e y, codificación y escalado, entrenamiento de modelos, evaluación de accuracy, ROC-AUC y matriz de confusión.
- Interpretabilidad: importancia de variables con Random Forest y SHAP para XGBoost.
- Predicciones y análisis final: probabilidad de churn, impacto sobre facturación y segmentación de riesgo de abandono.
Técnicas y herramientas
- Python: pandas, numpy, matplotlib, seaborn, scikit-learn, XGBoost, SHAP
- Machine Learning: clasificación binaria (churn/no churn)
- Interpretabilidad: feature importance y SHAP values
Dataset
- Fuente: Kaggle
- Descargar el Dataset
Principales insights
- Proporción de género: 3.488 mujeres y 3.555 hombres.
- Predicción de churn: 75,34% de clientes seguirán activos (84,31% de facturación). Bajas: 24,66% clientes y 15,69% facturación.
- Riesgo de abandono: 65% de clientes bajo riesgo, clientes con contrato mensual 57,29% riesgo.
- Variables más importantes: tipo y duración de contrato, facturación mensual y total, servicios contratados, factura electrónica y líneas adicionales.
Visualizaciones sugeridas
- Distribución de género: gráfico de barras.
- Churn por tipo de contrato: gráfico de columnas apiladas.
- Top 10 variables importantes: gráfico horizontal con Random Forest o SHAP.
- Segmentación de riesgo de abandono: gráfico de pastel o barras con bajo/medio/alto riesgo.
Dashboard – Ejemplo de visualizaciones
Página 1 – Predicción

Página 2 – Detalle
