lunes, 14 de abril de 2014

Quince cosas que hay que saber sobre Big Data

No es fácil definir Big Data y, por alguna razón, tampoco hay demasiada literatura acerca de sus especificidades técnicas. Sin embargo, sí hay características, ideas comunes o aspectos a conocer y recordar.

En su libro 'Too big to ignore', Phil Simon nos habla de quince características. Dada la naturaleza de las propuestas, más que características, creo que son apreciaciones y particularidades a conocer y recordar sobre Big Data.

Éstas son esas quince cosas a recordar:
  • Ya está aquí: No se trata de un fenómeno para el futuro o en su infancia. Referencias tan relevantes como Amazon, Facebook, Apple, Twitter, LinkedIn, IBM, etc son suficientes para avalar un fenómeno que está aquí para quedarse.

  • Está extremadamente fragmentado: Hay muchos datos, hay muchos fenómenos en la 'long tail', hay mucho 'ruido' y quizá poca señal...pero esa señal existe y las técnicas de Big Data permiten encontrarla.

  • No es un elixir: aunque muy importante, Big Data no sustituye a la gestión de datos tradicional ni tampoco hace milagros resucitando negocios agonizantes. Simplemente, se trata de un fenómeno emergente e importante...no milagroso.

  • 'Small data' extiende 'Big Data': Los datos tradicionales, estructurados ('small data') siguen siendo valiosos y contienen un gran valor descriptivo. Además, las organizaciones que gestionan bien el 'small data' estarán mejor preparadas para el 'Big Data'.

  • Es un complemento, no un sustituto: por lo anterior, Big Data debe verse como un complemento, no un sustituto, de la gestión de datos tradicional.

  • Puede proporcionar mejores predicciones: complementa las técnicas típicamente basadas en datos históricos con otro tipo de información. Aún así, Big Data sólo puede asegurar mejores predicciones...pero no adivinar el futuro.

  • Es un arma de doble filo: a pesar de sus grandes beneficios, Big Data también tiene sus peligros: es un arma de doble filo. El conocimiento que proporciona y la inmediatez también pueden perjudicar, por la amplificación que suponen, a compañías que toman decisiones equivocadas.

  • No es ni omnisciente ni preciso: Big Data acota, pero no elimina, la incertidumbre ni los cisnes negros. Aún hay espacio para lo imprevisto y para la sorpresa.

  • Es en general ancho, no largo: Si en los sistemas de gestión de bases de datos relacionales tradicionales, suele haber muchas filas (registros) de un número relativamente limitado y muy estable de columnas (datos en cada registro), Big Data tiende a añadir, de forma dinámica, nuevos datos por cada registro. De hecho, el concepto de fila tiende a difuminarse en Big Data y aparecen, por ejemplo, las bases de datos columnares.

  • Es dinámico y ampliamente impredecible: El mercado actual es dinámico y, muchas veces debido a cambios tecnológicos, impredecible. Big Data no puede eliminar ese dinamismo ni incertidumbre.

  • Está en gran parte dirigido por los consumidores: debido al creciente fenómeno de la 'consumerización', los consumidores generan y acceden a crecientes cantidades de datos. Por ello, son los consumidores, más que las empresas, los que dirigen de alguna forma el nacimiento y evolución de Big Data.

  • Es externo y no gestionable en el sentido tradicional: los datos que maneja Big Data en general se generan fuera de los contornos corporativos por lo que no se pueden controlar y gestionar como un activo propio.

  • Es inherentemente incompleto: a pesar del volumen de datos que maneja Big Data, no existe tal cosa como un conjunto de datos absolutamente completo.

  • Superposición con Business Intelligence: Big Data tiene que ver con Business Intelligence en sus objetivos (obtener valor a partir de la información) pero especialmente debido al tipo de datos que manejan (estructurados en el caso de Business Intelligence y fundamentalmente no estructurados o semiestructurados en el caso de Big Data) se aplican técnicas y soluciones diferentes.

  • Es democrático: al contrario que, por ejemplo, Business Intelligence, Big Data no surge en el entorno corporativo sino que aperecee en una era de apertura y así, las soluciones fundamentales como Hadoop y NoSQL, provienen de comunidades de software libre.


Estas quince apreciaciones no constituyen características de Big Data en el sentido técnico o a efectos de definición, pero sí son aspectos que creo importantes a conocer y recordar sobre Big Data.