Ensemble

Machine Learning Ensembles - y IV

Miguel Conde
La técnica conocida como bagging consiste en muestrear los datos de entrenamiento de una manera muy concreta llamada bootstrapping y utilizar luego cada muestra así tomada para ajustar sendos modelos (de clasificación o regresión) con los que construir un enesemble. Así, la estructura del método es muy sencilla: primero, generamos N muestras bootstrap a partir de los datos originales. A continuación utilizamos cada muestra para construir un modelo del ensemble que luego usaremos para realizar una predicción sobre otra muestra diferente.

Machine Learning Ensembles III

Miguel Conde
En este artículo vamos a crear un modelo apilado (stack): igual que en el anterior, crearemos algunos modelos de primer nivel; pero luego seleccionaremos uno de segundo nivel, que tomará las predicciones de los de primer nivel como entradas para realizar su propia predicción. Como primer paso, cargamos y preparamos los datos: library(C50) library(modeldata) data(mlc_churn) churn <- mlc_churn # Variables target y predictoras (features) # Variables target y predictoras (features) target <- "churn" predictoras <- names(churn)[names(churn) !

Machine Learning Ensembles II

Miguel Conde
Como nos propusimos en el artículo anterior, vamos a preparar un primer ensemble entrenando un random forest, un svm tipo radial y un xgbm tipo tree como modelos de primer nivel. Para construirlos vamos a aprovechar las facilidades del paquete caret. Por ejemplo, nos permitirá validar los modelos construidos mediante cross validation, es decir, usando solo el train set sin necesidad de disponer de un data set específico para validación.

Machine Learning Ensembles I

Miguel Conde
Los términos models ensembles, stacking, bagging o boosting son cada vez más comunes en el campo de la creación de modelos de aprendizaje máquina para la clasificación y la regresión. En este y los próximos artículos vamos a ocuparnos de ellos. En general, cuando en aprendizaje máquina hablamos de ensembles nos referimos a modelos de modelos. La aproximación básica para crear un modelo de clasificación o regresión es construirlo a partir de unos datos de entrenamiento (training data) que contienen tanto la variable objetivo como las variables predictoras.