viernes, 19 de agosto de 2016

Un curso de Data Science con la Johns Hopkins University

'Executive Data Science' es un libro que entiendo está hecho expresamente como libro de texto para el programa de especialización del mismo nombre que sus autores, profesores de la Johns Hopkins University,  ofrecen sobre la plataforma Coursera y esa es, precisamente, la vía por la que llegué a esta obra y la leí, como apoyo a la realización del curso.

El libro, y el curso, son una introducción a la disciplina de la ciencia de datos pero con una cierta orientación hacia los gestores de equipos y proyectos de análisis de datos.

El libro se estructura en cuatro capítulos que conciden con los cuatro cursos que componen el programa:
  • 'A crash course on data science' centra el significado de la disciplina de Ciencia de los Datos y cómo se relaciona con la estadística, el 'machine learning' o la ingeniería de software. También habla de cómo se estructura un proyecto de Ciencia de Datos, qué resultados se obtienen y cómo identificar si el proyecto ha sido exitoso o no. Además proporciona algunas sugerencias sobre herramientas que se pueden utilizar.

  • 'Building the Data Science Team' Se centra en la constitución y gestión de los equipos humanos, identificando los diferentes roles, y cómo gestionar tanto las relaciones dentro del equipo como de éste con otros actores.

  • 'Managing Data Analysis' Se centra en el proceso de trabajo, con sus fases y la mejor forma de ejecutarlas. Concede mucha importancia a la formulación de la pregunta que se desea contestar con el análisis e identifica la tipología de preguntas posibles. Se detiene también bastante en el análisis exploratorio inicial y en la diferenciación entre análisis asociacionales y análisis predictivos.

  • 'Data Science in real Life' contrariamente a lo que el título sugiere, es probablemente el capítulo más tecnico y complejo. La idea es comparar el proyecto de análisis de datos ideal con lo que se suelen encontrar los científicos de datos en la práctica pero, en esa comparativa, se identifican muchas técnicas, algunas complejas, para ayudar a gestionar esas 'imperfecciones'.
'Executive Data Science' es, como se ha dicho más arriba, casi un libro de texto y, en ese sentido, no busca especialmente el ser ameno ni motivador. A cambio es ordenado y riguroso y, son esas dos características, unidas a una cierta brevedad, las que creo que le confieren valor

Brian Caffo

(Fuente: Traducción y ligera elaboración propia de su perfil en Coursera.)

Brian Caffo
El doctor Brian Caffo es profesor en el departamento de Bioestadística en la Johns Hopkins University Bloomberg School of Public Health. Se graduó en Estadística por la Universidad de Florida en 2001. Trabaja en los campors de estadística computacional y neuroinformática y es creador del grupo de trabajo SMART (www.smart-stats.org) y ha recibido varios premios como el Presidential Early Career Award for Scientist and Engineers (PECASE), Bloomberg School of Public Health Golden Apple y AMTRA teaching.

Puedes conocer más del autor en su página oficial o siguiéndole en Twitter donde se identifica como @bcaffo.

Roger D. Peng

(Fuente: Traducción y ligera elaboración propia de su perfil en Coursera.)

Roger D. Peng
Roger D. Peng es profesor de Bioestadística en la Johns Hopkins Bloomberg School of Public Health y co-editor del blog 'Simply Statistics'. Recibió su doctorado en estadística de la Universidad de California en Los Ángeles y es un investigador destacado en las áreas de contaminación del aire y evaluación del riesgo para la salud así como en métodos estadísticos para los datos de medioambiente. Recibió en 2016 el premio Mortimer Spiegelman de la American Public Health Association que premia a estadísticos que han hecho una aportación destacada a la estadística de la salud.

Creó el curso 'Statistical Programming' en Johns Hopkins como una forma de introducir a los alumnos en las herramientas computacionales para el análisis de datos.

El Dr. Peng es también líder en el área de métodos y estándares para una investigación reproducible y es editor de Reproducible Research para la revista Biostatistics.

Su investigación es altamente multidisciplinar y su trabajo ha sido publicado en las mayores revistas de estadística, incluyendo American Medical Association y Journal of the Royal Statistical Society.

El Dr. Peng es autor de más de una docena de paquetes de software que implementan métodos estadísticos para estudios medioambientales, métodos para investigación reproducible y herramientas de distribución de datos. También ha impartido seminarios, tutoriales y pequeños cursos es computación estadística y análisis de datos.

Puedes saber más del autor siguiéndole en Twitter donde se identifica como @rdpeng.

Jeffrey T. Leek

(Fuente: Traducción y ligera elaboración propia de su perfil en Coursera.)

Jeffrey T. Leek
Jeef Leek es profesor ayudante de Bioestadística en la Johns Hopkins Bloomberg School of Public Health y coeditor del blog 'Simply Statistics'. Recibió su doctorado en Bioestadística por la Universidad de washington y es reconocido por sus aportaciones en análaisis de datos genómicos y métodos estadísticos para medicina personalizada. Sus análisis de datos han ayudado a entender los mecanismos moleculares que hay detrás del desarrollo del cerebro, la autoirenovación de células madre y la respuesta inmune a grandes traumatismos. Su trabajo ha aparecido en destacadas revistas científicas y médicas como Nature, Proceedings of the National Academy of Sciences, Genome Biology, y PLoS Medicine. Creó el módulo de Análisis de Datos como parte del itinerario de un año en métodos estadísticos para estudiantes en la Universidad Johns Hopkins, curso que ha recibido un premio de excelencia en educación, como resultado de la votación de los estudiantes en la Johns Hopkins.

Puedes saber más del autor vistando su página personal o siguiéndole en Twitter donde se identifica como @jtleek.

Ficha técnica:

EDITORIAL: Leanpub (Autoeditado)
AÑO: 2016
ISBN: N/A
PAGINAS: 151

Artículos de este blog relacionados