Los términos models ensembles, stacking, bagging o boosting son cada vez más comunes en el campo de la creación de modelos de aprendizaje máquina para la clasificación y la regresión.
En este y los próximos artículos vamos a ocuparnos de ellos. En general, cuando en aprendizaje máquina hablamos de ensembles nos referimos a modelos de modelos.
La aproximación básica para crear un modelo de clasificación o regresión es construirlo a partir de unos datos de entrenamiento (training data) que contienen tanto la variable objetivo como las variables predictoras.
La plaga zombie empezó hace ya varios meses. El gobierno informa de que, en nuestro país, con una población de 47 millones de habitantes, la prevalencia de la enfermedad es “tan solo” del 1% (es decir, el 1% de la población padece esta terrible enfermedad en un momento determinado - el actual). Desgraciadamente, la enfermedad tiene un largo periodo de incubación y se desconocen aún las causas de contagio (no, no es necesario que te muerda un infectado).
¿Qué tiene que ver la Ciencia de Datos con J.J. Abrams? La respuesta es que a J.J Abrams le gustan las Cajas Negras.
En una famosa conferenciade marzo de 2007 en TED, el creador de Perdidos, Star Trek: más allá o Star Wars: Episodio VII - El Despertar de la Fuerzacontó la siguiente historia: siendo niño, mi abuelo me llevó a una tienda de magia llamada Tannen’s Magic, en el Midtown de Nueva York.
Como hemos visto, la característica clave del concepto “Data Science” está en la segunda palabra. “Science” significa que los datos no son un fin en si mismos, sino el medio para responder preguntas. En Data Science el foco está primero en la pregunta, sólo después en los datos y las herramientas para tratarlos.
Las preguntas son la parte científica: buscamos respuestas para aumentar nuestro conocimiento. Y este conocimiento, a corto o a largo plazo, directa o indirectamente, está siempre orientado a la acción.
Buscando “what is data science” en Google obtenemos 68.5 millones de respuestas. Si hacemos la búsqueda en español (“qué es ciencia de datos”) salen 28.5 millones.
Si buscamos “Ciencia de datos” en la Wikipedia en español encontramos esta definición:
La Ciencia de datos es un campo interdisciplinario que involucra los procesos y sistemas para extraer conocimiento o un mejor entendimiento de grandes volúmenes de datos en sus diferentes formas (estructurados o no estructurados) y formatos (.
“Applied Predictive Modeling” no es un libro para completos principiantes, pero si tenéis ya una cierta idea de lo que es machine learning y manejáis mínimamente R, puede convertirse en una magnífica vía de aprendizaje práctico.
Los autores Sus autores son Max Kuhn y Kjell Johnson. Ambos vienen de la investigación en la industria farmacéutica, en donde han aplicado durante muchos años las técnicas de modelado predictivo que describen en el libro.
En este artículo vamos a repetir el mismo ejercicio que en el anterior pero esta vez construiremos un modelo C5.0.
Como recordaréis, nuestro problema de clasificación consiste en la predicción de posibles bajas (churn) de clientes de una operadora móvil.
Los pasos que seguiremos son, como siempre:
Obtención de los datos
Exploración y preparación de los datos
Construcción del modelo
Evaluación de su rendimiento
Continuamos con la implementación en R de dos tipos de árboles de decisión, probablemente los algoritmos más empleados en Machine Learning. En este artículo construiremos un modelo rpart. En el artículo anterior planteamos un problema de clasificación, consistente en la predicción de posibles bajas (churn) de clientes de una operadora móvil. Cargamos allí los datos e hicimos una sencilla exploración de los mismos. En este vamos a preparar los datos para construir a continuación nuestro modelo de predicción.
En esta entrada y la siguiente veremos la implementación en R de dos árboles de decisión: rpart y C5.0. Nos servirán para profundizar en el mecanismo de particionamiento recursivo empleado.
Chief Data Scientist Imagina que eres el Chief Data Scientist de una compañía operadora de telefonía móvil. Tu jefe te llama a su despacho y te explica que la tasa de rotación de vuestros clientes es alarmante: últimamente, el porcentaje de clientes que se pasa a otras compañías de la competencia ha crecido de manera alarmante.
Cuando pensamos, como organización, en adquirir la competencia Data Science, tenemos que pensar en un equipo multidisciplinar. Esta competencia puede incluir gran número de conocimientos, habilidades y actitudes; y no podemos pedir a todas las personas que las posean todas.
En un equipo de Data Science podemos distinguir 3 roles principales:
El primero es el ingeniero de datos (Data Engineer).
Se trata de las personas que se encargarán de la infraestructura hardware y software que permita almacenar y gestionar los datos sobre los que trabajará el equipo, así como de implementar los productos de datos, las aplicaciones que serán puestas en producción basadas en los modelos y prototipos de los data scientist.