Como hemos visto, la característica clave del concepto “Data Science” está en la segunda palabra. “Science” significa que los datos no son un fin en si mismos, sino el medio para responder preguntas. En Data Science el foco está primero en la pregunta, sólo después en los datos y las herramientas para tratarlos.
Las preguntas son la parte científica: buscamos respuestas para aumentar nuestro conocimiento. Y este conocimiento, a corto o a largo plazo, directa o indirectamente, está siempre orientado a la acción.
Buscando “what is data science” en Google obtenemos 68.5 millones de respuestas. Si hacemos la búsqueda en español (“qué es ciencia de datos”) salen 28.5 millones.
Si buscamos “Ciencia de datos” en la Wikipedia en español encontramos esta definición:
La Ciencia de datos es un campo interdisciplinario que involucra los procesos y sistemas para extraer conocimiento o un mejor entendimiento de grandes volúmenes de datos en sus diferentes formas (estructurados o no estructurados) y formatos (.
En este artículo vamos a repetir el mismo ejercicio que en el anterior pero esta vez construiremos un modelo C5.0.
Como recordaréis, nuestro problema de clasificación consiste en la predicción de posibles bajas (churn) de clientes de una operadora móvil.
Los pasos que seguiremos son, como siempre:
Obtención de los datos
Exploración y preparación de los datos
Construcción del modelo
Evaluación de su rendimiento
Continuamos con la implementación en R de dos tipos de árboles de decisión, probablemente los algoritmos más empleados en Machine Learning. En este artículo construiremos un modelo rpart. En el artículo anterior planteamos un problema de clasificación, consistente en la predicción de posibles bajas (churn) de clientes de una operadora móvil. Cargamos allí los datos e hicimos una sencilla exploración de los mismos. En este vamos a preparar los datos para construir a continuación nuestro modelo de predicción.
En esta entrada y la siguiente veremos la implementación en R de dos árboles de decisión: rpart y C5.0. Nos servirán para profundizar en el mecanismo de particionamiento recursivo empleado.
Chief Data Scientist Imagina que eres el Chief Data Scientist de una compañía operadora de telefonía móvil. Tu jefe te llama a su despacho y te explica que la tasa de rotación de vuestros clientes es alarmante: últimamente, el porcentaje de clientes que se pasa a otras compañías de la competencia ha crecido de manera alarmante.
Los Árboles de Decisión o Clasificación constituyen un buen ejemplo de clasificadores Machine Learning. Son relativamente sencillos de entender y sobre ellos se basan otros algoritmos más complicados.
¿A qué problemas se aplican? El escenario es el siguiente: tenemos una serie de observaciones o ejemplos. Cada uno de ellos está compuesto por un vector de valores concretos de diferentes variables:
Variables predictoras, atributos o features: pueden ser continuas o categóricas.
“Data Science”. ¿Una expresión “de moda? ¿En qué consiste?
Los seres vivos percibimos estímulos de nuestro entorno – externo e interno – y respondemos a ellos.
La mayoría de ellos responden a los estímulos de forma automática. Al menos los seres humanos somos capaces de inhibir la respuesta automática y elaborar una respuesta consciente. Los estímulos son datos que contienen información. De la respuesta, automática o elaborada, depende nuestra supervivencia y nuestra reproducción.