miércoles, 24 de mayo de 2017

Una curiosa definición de Data Science



El 'Data Science' (la ciencia de los datos) es una de esas disciplinas emergentes, de las que se habla mucho, no se conoce tanto, y donde se mezcla la realidad, la confusión y la propaganda.

No siempre queda clara su frontera con la estadística, o con el Big Data, el machine learning e, incluso, a veces, ni siquiera con la inteligencia artificial.

En las primeras líneas de su libro 'The Data Science Handkook', Field Cady nos da la siguiente definición de Data Science:  

Data Science means doing analytics work that, for one reason or another, requieres a substantial amount of software engineering.

Una definición que me resulta llamativa, aunque puede que sea acertada. Lo cierto es que Cady no se eleva mucho a los tópicos o al 'hype'. Explica abiertamente que lo que hace un científico de datos es un trabajo analítico sobre datos. Simple y claro.

Ahora bien, ¿en qué se diferencia entonces de un estadístico? Pues en el uso frecuente, casi obligatorio, de la ingeniería del software, de la programación como herramienta fundamental de ayuda a su trabajo.

No parece una distinción conceptualmente fuerte, aunque puede que sea realista en la práctica. Lo cierto es que cuando explica un poco más el detalle técnico se ve que en la concepción de Cady, el científico de datos 'invade' también ligeramente el campo de la inteligencia artificial (usa redes neuronales como clasificador, por ejemplo)

Lo cierto es que el autor parece darse cuenta de que la diferencia no es profunda y que por tanto es coyuntural. De hecho, poco más adelante, expresa esta opinión:

In 20 years I suspect that statistics, data science and machine learning will blur into a single discipline.

Acertada o no, también parece una predicción realista, con los pies asentados en el suelo y más allá de los mitos.

Quizá la definición de Data Science de Field Cady no sea muy académica, pero, desde luego, su realismo y honestidad resultan clarificadoras y de agradecer.