lunes, 30 de abril de 2012

La paradoja de los datos y la humildad

Es ya conocida y casi manida la diferenciación entre datos e información y entre información y conocimiento.

Los datos son solo eso, datos. Son una base sobre la que construir...y una base cierta, pero por sí mismos no aportan nada. Cuando esos datos comienzan a tener significación, cuando dan una imagen comprensible, pasan a ser información. Y en su estadio superior la información se puede convertir en conocimiento, cuando esa información se puede ver en contexto, cuando permite una comprensión de fenómenos y una toma inteligente de decisiones.

Y para alcanzar el punto del conocimiento, e incluso de la información, la cantidad importa. Muy pocos datos es difícil que aporten información, pero un exceso de datos sin estructura nos inunda, nos supera, nos desborda e impide más que permite alcanzar el conocimiento.


Recuerdo vagamente una escena de una película de Tom Cruise, no soy capaz de dilucidar si 'Algunos hombres buenos', 'La tapadera' o alguna otra, en que cuando a 'los malos' se les requiere judicialmente información, la treta que inventan para no parecer no cooperadores, pero evitar aportar realmente la comprometedora información requerida, es enviar toneladas de documentos, montañas y montañas de datos, en la seguridad de que el joven abogado que representa Tom Cruise será incapaz de obtener la más mínima información real de esa montaña de datos.

Esta tensión, este necesario equilibrio en la cantidad de datos necesarios para llegar al conocimiento, es lo que Avinash Kaushik, un reconocido experto en analítica web, denomina la 'paradoja de los datos'. En sus propias palabras, extraidas de su libro 'Analítica Web 2.0':

"Esta es la paradoja de los datos: la falta de información significa que no se pueden tomar decisiones definitivas, pero incluso con una gran cantidad de datos, se sigue recibiendo un número infinitamente pequeño de insights."

La analítica web, una disciplina que, precisamente, debe obtener información y conocimiento a partir de una gran cantidad de datos poco estructurados, los procedentes principalmente de los logs de los servidores web, es un terreno excelente para entender, probablemente sufrir, esa dicotomía, esa paradoja de los datos.

Y, como nos dice Kaushik, esa dificultad para obtener conocimiento a partir de los datos, esa sensación de impotencia, son una gran vacuna contra la soberbia intelectual y tecnológica.

La paradoja de los datos es, en palabras de Avinash Kaushik, toda una lección de humildad.