A menudo oimos lo mala que es la multicolinealidad en los modelos de regresión. En este artículo vamos a ver en qué consiste y cuáles son sus efectos, lo que nos llevará, curiosamente, a otras disquisiciones habituales:
¿Qué diferencia hay entre inferencia y predicción? ¿Qué enfoque es mejor? Machine Learning: lo meto todo en la coctelera sin darle muchas vueltas a la cabeza y pruebo muchos tipos de modelo y consjuntos de hperparámetros.
Muy bien, hace ya tiempo que decidiste adoptar el software como tu principal herramienta analítica. Quizá uses Python, quizá R o (¡muy bien!) ambos o, incluso, más lenguajes de programación.
Tengo una buena noticia para ti: ante ti se abre un enorme abanico de posibilidades para aportar mayor valor (a tu empresa, a tu cliente, a tus investigaciones, a tu carrera), porque el software permite automatizar, permite capitalizar el trabajo y el conocimiento y permite trabajar de manera replicable y reproducible.
¿Qué tiene que ver la Ciencia de Datos con J.J. Abrams? La respuesta es que a J.J Abrams le gustan las Cajas Negras.
En una famosa conferenciade marzo de 2007 en TED, el creador de Perdidos, Star Trek: más allá o Star Wars: Episodio VII - El Despertar de la Fuerzacontó la siguiente historia: siendo niño, mi abuelo me llevó a una tienda de magia llamada Tannen’s Magic, en el Midtown de Nueva York.
Como hemos visto, la característica clave del concepto “Data Science” está en la segunda palabra. “Science” significa que los datos no son un fin en si mismos, sino el medio para responder preguntas. En Data Science el foco está primero en la pregunta, sólo después en los datos y las herramientas para tratarlos.
Las preguntas son la parte científica: buscamos respuestas para aumentar nuestro conocimiento. Y este conocimiento, a corto o a largo plazo, directa o indirectamente, está siempre orientado a la acción.
Buscando “what is data science” en Google obtenemos 68.5 millones de respuestas. Si hacemos la búsqueda en español (“qué es ciencia de datos”) salen 28.5 millones.
Si buscamos “Ciencia de datos” en la Wikipedia en español encontramos esta definición:
La Ciencia de datos es un campo interdisciplinario que involucra los procesos y sistemas para extraer conocimiento o un mejor entendimiento de grandes volúmenes de datos en sus diferentes formas (estructurados o no estructurados) y formatos (.
“Data Science”. ¿Una expresión “de moda? ¿En qué consiste?
Los seres vivos percibimos estímulos de nuestro entorno – externo e interno – y respondemos a ellos.
La mayoría de ellos responden a los estímulos de forma automática. Al menos los seres humanos somos capaces de inhibir la respuesta automática y elaborar una respuesta consciente. Los estímulos son datos que contienen información. De la respuesta, automática o elaborada, depende nuestra supervivencia y nuestra reproducción.