lunes, 29 de mayo de 2017

Las fases de un proyecto de Data Science



Aunque Data Science es una disciplina que puede aplicarse a todo tipo de campos, a todo tipo de sectores, negocios e investigaciones, lo cierto es que, dejando aparte las diferencias particulares dependientes del campo de aplicación y situaciones específicas, en sus líneas básicas, siguen una mecánica muy parecida, unas fases que parecen repetirse una y otra vez.

En su libro, ‘Data Science Handbook’, Field Cady nos habla de un Data Science Roadmap que, en el fondo, no es más que eso: identificar las etapas de un proyecto de Data Science habitual.

El autor habla de seis pasos, aunque en mi opinión, realmente sólo cinco son verdaderas fases. Serían éstas:

  • Establecer el marco del problema: entender la necesidad del negocio y definir claramente el problema. Aquí es donde es muy importante, como mencionábamos en un post anterior, definir claramente la pregunta o las preguntas de negocio a las que queremos dar respuesta. Es importante saber cómo sería una respuesta o resultado que considerásemos una solución. En el caso de proyectos complejos, puede ser necesario recoger las necesidades en un documento.

  • Entender los datos: Se trata de un análisis preliminar de los datos de que se dispone: su tamaño, su calidad, si son completos o parciales, si son representativos, si existen ‘outliers’ (datos atípicos), si existen identificadores y cuáles son. De forma resumida, es importante saber si se dispone de los datos necesarios para contestar a la pregunta o preguntas que definen el problema a resolver y, por tanto, el objetivo del proyecto. En esta fase, además, se transforman de su formato original a alguno otro más apto para su tratamiento mediante herramientas de análisis. Luego vendría un análisis exploratorio, observarlos, probablemente graficarlos desde diferentes perspectivas...

  • Extraer características: En cierto modo, es una continuación de la fase anterior y puede tener un cierto solape. Se trata de extraer números o categorías que caractericen los datos. Además, y como resultado, se transforman esos datos a formatos tabulares aptos para su tratamiento.

  • Modelar y analizar: Se realizan las clasificaciones, se aplican modelos, tal vez machine learning. Aunque esta fase parece el núcleo del trabajo, el autor nos advierte que puede ser bastante sencillo porque, al fin y al cabo, existen ya muchos modelos pre-construidos, y potentes herramientas que hacen fácil su aplicación. Con frecuencia, se aplican varios modelos para examinar los datos desde diferentes perspectivas.

  • Presentar los resultados: sin duda la parte menos técnica de todo el trabajo...pero puede que la más importante, porque es a través de la cual conseguimos (o no) que el negocio, los 'stakeholders' que encargaron el trabajo, reciban sus respuestas y puedan decidir con base en ellas.
Roadmap propuesto por Field Cady


Para ser correctos, Field Cady añade otra sexta etapa: entregar el código. Recordemos que para Cady, un hecho diferencial del científico de datos frente a un estadístico, es que utilizaba técnicas de ingeniería de software de forma intensiva en su trabajo. Sin embargo, en mi opinión, y sin despreciar en absoluto la importancia del software como entregable, creo que desde un punto de vista metodológico no tiene la categoría de fase sino, más bien, de entregable, de subproducto, por valioso que pueda ser.

Y estas son las fases. Unas fases que, he podido ver en otras fuentes descritas de forma parecida, así que creo constituyen un buen marco de referencia.