viernes, 22 de julio de 2016

Aprendiendo Data Science con Roger D. Peng y Elizabeth Matsui de la Johns Hopkins University

He leído este libro como un acompañamiento del curso 'Managing Data Analysis' que la universidad Johns Hopkins imparte en Coursera. De hecho, el seguimiento del libro en los vídeos y textos del curso es muy, muy estrecho.

Lo que se plantea es un proceso ordenado de realizar el análisis de datos y, por cada actividad, se describe brevemente en qué consisten y las principales herramientas.

El libro se estructura en once capítulos. Los dos primeros son de carácter introductorio y, así, en 'Data Analysis as Art' se defiende la idea de que, dado que el análisis de datos no se puede constreñir a una fórmula o un proceso claramente delineado, estamos más ante un arte que una ciencia, mientras que en 'Epicycles of Analysis', el segundo capítulo, explica un modelo de trabajo iterativo en que, por cada fase del ciclo de análisis, tenemos un subciclo con tres partes en que primero establecemos unas expectativas, luego se recogen datos y finalmente se comparan las expectativas con los datos.

Los siguientes capítulos, describen el proceso:
  • 'Stating and Refining the Question': en que se concede mucha importancia a formular claramente la pregunta a que se quiere dar respuesta con el análisis, y que describe los tipos de preguntas posibles y sus implicaciones.

  • 'Exploratory Data Analysis': propone una serie de exploraciones iniciales sobre los datos orientadas en parte a comprobar su corrección y, en parte, a hacerse una idea preliminar delo que nos vamos a encontrar.

  • 'Using Models to Explore Your Data':, complementario del anterior, explica cómo usar modelos (lineal, curva normal, etc) para ayudar en ese análisis exploratorio.

  • 'Inference: A primer': proporciona algunas ideas sobre inferencia trabajando con aspectos como la población, el muestreo, etc

  • 'Formal Modeling': explica el concepto de modelado formal y la distinción entre un análisis asociativo (orientado a encontrar relaciones) y uno predictivo (orientado a predecir comportamientos)

  • 'Inference vs Prediction: Implications for Modelling Strategy': profundiza en las implicaciones de los dos tipos de análisis mencionados en el capítulo anterior.

  • 'Interpreting Your Results': da algunas pautas para la interpretación de los resultados, como son el revisar la pregunta que queríamos contestar, usar un modelo inicial, desarrollar el análisis y considerar las implicaciones de lo que se deduce.

  • 'Communications':nos habla de la comunicación de los resultados finales pero, sobre todo, de la comunicación menos formal que se establece dentro del equipo o con otras áreas durante el propio proceso de análisis.
Finaliza el libro con unas conclusiones finales en 'Concluding Thoughts'.

Me ha gustado mucho, por lo ordenado y claro, el proceso descrito aunque es cierto que no deja de ser un planteamiento algo superficial donde faltan las técnicas 'duras'. Y eso es un arma de doble filo: no describirlas hace el libro muchísimo más ameno, legible y para todos los públicos incluyendo a quienes, como yo, no buscan realmente una especialización sino sólo entender el campo del análisis de datos. Por otra parte, sin embargo, queda esa sensación de no dominar realmente la materia, sino haber rascado sólo en su superficie.

Con todo, es un libro, y un curso, que me han gustado y que me parecen buenos como introducción y como forma de poner orden en la materia.

Roger D. Peng

(Fuente: Traducción y ligera elaboración propia de su perfil en Coursera.)

Roger D. Peng
Roger D. Peng es profesor de Bioestadística en la Johns Hopkins Bloomberg School of Public Health y co-editor del blog 'Simply Statistics'. Recibió su doctorado en estadística de la Universidad de California en Los Ángeles y es un investigador destacado en las áreas de contaminación del aire y evaluación del riesgo para la salud así como en métodos estadísticos para los datos de medioambiente. Recibió en 2016 el premio Mortimer Spiegelman de la American Public Health Association que premia a estadísticos que han hecho una aportación destacada a la estadística de la salud.

Creó el curso 'Statistical Programming' en Johns Hopkins como una forma de introducir a los alumnos en las herramientas computacionales para el análisis de datos.

El Dr. Peng es también líder en el área de métodos y estándares para una investigación reproducible y es editor de Reproducible Research para la revista Biostatistics.

Su investigación es altamente multidisciplinar y su trabajo ha sido publicado en las mayores revistas de estadística, incluyendo American Medical Association y Journal of the Royal Statistical Society.

El Dr. Peng es autor de más de una docena de paquetes de software que implementan métodos estadísticos para estudios medioambientales, métodos para investigación reproducible y herramientas de distribución de datos. También ha impartido seminarios, tutoriales y pequeños cursos es computación estadística y análisis de datos.

Puedes saber más del autor siguiéndole en Twitter donde se identifica como @rdpeng.

Elizabeth Matsui

(Fuente: Traducción y ligera elaboración propia de su perfil en Leanpub.)

Elizabeth Matsui
Elizabeth Matsui es profesora de Pediatría, Epidemiología y Ciencias de la Salud Ambiental en Johns Hopkins University y profesional en ejercicio en alergología e inmunología pediátrica. Dirige un centro de análisis y gestión de datos con el Dr. Roger D. Peng que presta soporte a estudios epidemiológicos y pruebas clínicas y es co-fundadora de Skybrude Consulting, LLC, una firma de consultoría en ciencia de los datos.

Puedes saber más de la autora siguiéndola en Twitter, donde se identifica como @eliza68.

Ficha técnica:

EDITORIAL: Leanpub (Autoeditado)
AÑO: 2015
ISBN: N/A
PAGINAS: 162