lunes, 7 de abril de 2014

Cuatro tipologías de datos...que también justifican el Big Data

Si en el artículo anterior veíamos tres dimensiones de los datos que justifican un poco el interés actual en Big Data, en éste revisamos las tres tipologías fundamentales de los datos, aspecto que en el artículo anterior se encuadraría dentro de la dimensión 'variedad'.

La fuente de la clasificación es la misma: el libro 'Too big to ignore' de Phil Simon.

En el primer capítulo, que titula 'Data 101 and the Data Deluge', el autor distingue cuatro tipos de datos:

  • Estructurados: que han formado el corpus fundamental de datos corporativos hasta hace poco, datos de características claras (tipo, longitud, precisión,...), con relaciones claras, que se recogen y gestionan de forma muy eficiente en bases de datos relacionales y que se encuentran en el centro de los modelos de información de soluciones ERP o CRM tradicionales.

  • No estructurados: nuevos tipos de datos sin estructura clara, no relacionales, y que no se recogen adecuadamente en tablas. Hablamos de contenidos multimedia, textos (ej, blogs), relaciones sociales, sentimientos expresados de forma ambigua...

  • Semi-estructurados: datos que mantienen una cierta estructura pero muy lejos de la formalización relacional. Podrían incluirse en este apartado, por ejemplo, datos recogidos en ficheros XML.

  • Metadatos: datos que describen otros datos. En el mundo 2.0 en que nos movemos, las etiquetas, los hashtags que utilizamos en blogs, twitter, etc, podrían ser un caso claro exponente de metadatos.

La gestión de datos tradicional se centraba en los primeros tipos de datos, los estructurados, pero la generalización de Internet, la explosión multimedia y la eclosión de los medios sociales han dado un gran empuje a los datos no estructurados, semi-estructurados y los metadatos.

En el mismo capítulo del libro citado se nos aporta un dato:

By some estimates, unstructured data is growing ten to fifty times faster than its structured counterpart.

Phil Simon resumen la situación en el siguiente párrafo:

[...] what's different now? First, [...] there's just more unstructured data today than any point in the past. Second, much of this unstructured data is digitized and available nearly instantly.

Gestionar estos tipos de datos escasamente estructurados y gestionar un gran volumen de datos es, probablemente, lo que de forma simple define al Big Data.

Y la evolución de los datos que hemos visto es lo que justifica el interés alrededor de este concepto y las tecnologías que lo soportan.