Primero la Ciencia, despues los Datos
Como hemos visto, la característica clave del concepto “Data Science” está en la segunda palabra. “Science” significa que los datos no son un fin en si mismos, sino el medio para responder preguntas. En Data Science el foco está primero en la pregunta, sólo después en los datos y las herramientas para tratarlos.
Las preguntas son la parte científica: buscamos respuestas para aumentar nuestro conocimiento. Y este conocimiento, a corto o a largo plazo, directa o indirectamente, está siempre orientado a la acción.
Pero centrarse en la parte científica es menos fácil que hacerlo en los datos:
Los datos que tenemos y nuestro deseo de obtener respuestas de ellos no nos garantizan el éxito (John Tukey).
Por muchos datos que tengamos, no será raro que sólo una pequeña parte de ellos sean útiles para responder la pregunta que nos interesas.
O no siquiera eso: puede que nos demos cuenta de que los datos de los que disponemos no son en absoluto útiles para responder nuestra pregunta. Y tendremos que buscar datos nuevos o diseñar nuevos experimentos para obtenerlos.
Y encontrar patrones en los datos no es difícil: siempre habrá correlaciones por múltiples razones si reunimos datos suficientes. Lo fastidiado es entender qué pintan esas relaciones en relación a nuestra pregunta, si es que pintan algo. Porque a menudo se deben a fenómenos no relacionados con ella.
La expectación en torno a Data Science y Big Data desaparecerá si la Ciencia de Datos es sólo de “Datos” y no de “Ciencia”. La importancia a largo plazo de la Ciencia de Datos se medirá por la de las cuestiones que podamos responder con los datos.