viernes, 16 de junio de 2017

Ciencia de Datos con Field Cady

'The data science handbook' pretende dar una visión completa de las técnicas y tecnologías que incluye el campo del Data Science. La perspectiva es bastante técnica aunque cuidando la pedagogía, y poniendo mucho foco en todo lo relativo a la ingeniería de software, que tan frecuente es en la realización práctica del data science.

Los temas se tratan en niveles crecientes de profundidad o, más bien, de frecuencia de aplicación en el día a día de un científico de datos, desde las técnicas más básicas a aquella que sólo se encontrarán en nichos especializados o situaciones muy concretas.

Aunque este planteamiento puede tener su interés para quien lo utilice como libro de consulta, hace sin embargo, que, aunque cada tema se toca de forma pedagógica y creo que con acierto en su capítulo correspondiente, la organización de capítulos y su orden resulte un poco caótica y en la lectura da a veces la sensación de ir saltando de un tema a otro muy diferente sin mucha lógica.

En concreto, el libro se estructura en 25 capítulos agrupados en tres partes.

El primer capítulo 'Introduction: Becoming a unicorn' hace a modo de introducción y resalta la variedad de técnicas y tecnologías que un científico de datos debe conocer y usar.

A continuación, aborda la Parte I 'The stuff you'll always use' con las técnicas que todo científico de datos debe dominar. Se habla del tratamiento de los datos previos a su análisis, de la visualización de datos, de software y de documentación. También se introduce el machine learning siendo especialmente interesante el análisis de clasificadores. En esta parte se incluyen los siguientes capítulos:
  • 'The data science roadmap'
  • 'Programming languages'
  • 'Data munging: string manipulation, regular expressions and data cleaning'
  • 'Visualization and simple metrics'
  • 'Machine learning overview'
  • 'Interlude: feature exraction ideas'
  • 'Machine learning classification'
  • 'Technical communication and documentatios'
La segunda parte 'Stuff you still need to know', continua con técnicas de obligado conocimiento pero desde una perspectiva más avanzada. Se tratan en general aspectos bastante teóricos sobre probabilidad, estadística, algoritmos, series temporales, etc ilustrado, eso sí, con ejemplos y acompañado de algún capítulo más cercano como lo que tiene que ver con buenas prácticas de ingeniería software. Los capítulos que integran esta parte son:
  • 'Unsupervised learning: clustering and dimensionality reduction'
  • 'Regression'
  • 'Data encoding and file formats'
  • 'Big Data'
  • 'Databases'
  • 'Software engineering best practices'
  • 'Natural Language Processing'
  • 'Time series analysis'
  • 'Probability'
  • 'Statistics'
  • 'Programming language concepts'
  • 'Performance and computer memory'
La última parte 'Specialized or advanced topics' trata ya, como claramente se expresa en el título, los temas más avanzados o especializados. En este caso, sólo se incluyen cuatro capítulos, a saber:
  • 'Conputer memory and data structures'
  • 'Maximum likelihood estimation and optimization'
  • 'Advanced clasifiers'
  • 'Sthocastic modeling'
'The data science handbook' ofrece una perspectiva amplia y en cierto sentido multidisciplinar del campo de la ciencia de datos. El tratamiento es riguroso y basado en conocimiento práctico y, a pesar de lo arduo o especializado de algunos temas, el autor se esfuerza en hacerlo sencillo. No obstante, algunos temas son en sí mismos complejos y el libro no siempre es fácil de entender, no por defecto del autor, sino por la base que se precisa para entenderlo completamente.

Considero que Field Cady ha hecho un buen trabajo con este manual.

Field Cady

(Fuente: Traducción y ligera elaboración propia de su perfil en LinkedIn.)

Field Cady
Matemático computacional y aplicado, con especial foco en modelado estadístico y analítica "big data". Hizo investigación en ese campo durante sus estudios y actualmente continua en la misma linea en la industria más innovadora.

Ha realizado consultoría, con clientes que varían entre startups de Internet hasta grandes instituciones financieras, e incluso ha hecho incursiones en la gestión de un equipo de desarrollo hardware. Su foco ha sido siempre conectar conceptos y herramientas abstractas con los beneficios que pueden conseguir en el mundo real.

El énfasis teórico se apoya también en una extensa experiencia real en codificación.

Cady tiene un grado en Computer Science y entre sus logros se incluye el rediseño del módulo de interpolación de la popular librería SciPy, desarrollo de backend en Google y la realización de las APIs en Python y R para Allen Institute for Artificial Intelligence.

Ha escrito 'The Data Science Handkbook' y 'What is Math?', éste último autoeditado.

Puedes saber más acerca del autor visitando su perfil en LinkedIn o siguiéndole en twitter donde se identifica como @fieldcady.