En este artículo vamos a repetir el mismo ejercicio que en el anterior pero esta vez construiremos un modelo C5.0.
Como recordaréis, nuestro problema de clasificación consiste en la predicción de posibles bajas (churn) de clientes de una operadora móvil.
Los pasos que seguiremos son, como siempre:
Obtención de los datos
Exploración y preparación de los datos
Construcción del modelo
Evaluación de su rendimiento
Continuamos con la implementación en R de dos tipos de árboles de decisión, probablemente los algoritmos más empleados en Machine Learning. En este artículo construiremos un modelo rpart. En el artículo anterior planteamos un problema de clasificación, consistente en la predicción de posibles bajas (churn) de clientes de una operadora móvil. Cargamos allí los datos e hicimos una sencilla exploración de los mismos. En este vamos a preparar los datos para construir a continuación nuestro modelo de predicción.
En esta entrada y la siguiente veremos la implementación en R de dos árboles de decisión: rpart y C5.0. Nos servirán para profundizar en el mecanismo de particionamiento recursivo empleado.
Chief Data Scientist Imagina que eres el Chief Data Scientist de una compañía operadora de telefonía móvil. Tu jefe te llama a su despacho y te explica que la tasa de rotación de vuestros clientes es alarmante: últimamente, el porcentaje de clientes que se pasa a otras compañías de la competencia ha crecido de manera alarmante.
Los Árboles de Decisión o Clasificación constituyen un buen ejemplo de clasificadores Machine Learning. Son relativamente sencillos de entender y sobre ellos se basan otros algoritmos más complicados.
¿A qué problemas se aplican? El escenario es el siguiente: tenemos una serie de observaciones o ejemplos. Cada uno de ellos está compuesto por un vector de valores concretos de diferentes variables:
Variables predictoras, atributos o features: pueden ser continuas o categóricas.