lunes, 28 de abril de 2014

Los juegos como camino hacia la sabiduría

'Solo sé que no se nada' es la famosa frase de Sócrates que, aunque disfrazada de una artificial ignorancia, denota una gran sabiduría.

En efecto, ser conscientes de la propia ignorancia es, en realidad, conocimiento.

En esa línea, y en su libro 'Innovation games', Luke Hohmann distingue, y no creo que sea una aportación original de este autor, tres niveles de conocimiento o desconocimiento:

  • Lo que sabes
  • Lo que no sabes
  • Lo que no sabes que no sabes

El peligroso, por lo que tiene de inconsciencia, es el último.

En ciertas disciplinas se aplican técnicas para intentar acercarse a ese desconocido del que no tenemos constancia. Así, en áreas como el coaching o el feedback, en general en gestión de personas, una forma de explorar áreas desconocidas es el sencillo uso de preguntas abiertas, preguntas que hacen que el sujeto 'saque lo que lleva dentro'.

En el campo del marketing, de la investigación de mercados y productos, Luke Hohmann nos propone el uso de juegos y, una de las ventajas que el autor encuentra en los juegos es, precisamente, que pueden constituir un mecanismo para arrojar luz sobre eso que no somos conscientes de desconocer sobre nuestros clientes, sobre lo que valoran de nuestros productos o lo que querrían que les ofreciésemos.

Así nos dice:

Part of the power of Innovation Games lies in their capability to move you from complete ignorance into a state of knowing.

Sorprendentemente, al parecer, los juegos nos acercan a la sabiduría.

Juguemos, pues... 

viernes, 25 de abril de 2014

Entendiendo Big Data con Phil Simon

'Too big to ignore' es una panorámica general sobre el fenómeno Big Data, una panorámica que no es completamente de negocio (a pesar del subtítulo 'The business case for Big Data' que lo acompaña) ni tampoco completamente tecnológica. No debe sin embargo entenderse esto como un defecto sino, a mi parecer, todo lo contrario: es un buen punto de partida para saber de qué estamos hablando cuando empleamos el tan manido, y tan poco explicado término 'Big Data'.

El libro se estructura en ocho capítulos:

El primer capítulo, 'Data 101 and the Data Deluge' actúa como introducción pero sobre todo presenta la distinción entre datos estructurados, desestructurados y semi-estructurados. Argumenta el crecimiento e importancia de los no estructurados y semi-estructurados y cómo eso influye en las empresas.

'Demystifying Big Data' es un relativamente largo recorrido por las principales características e ideas a tener en cuenta en lo relativo a Big Data e introduce el interesante concepto de 'Deep web', aquella parte de la web a la que no se puede acceder a través de buscadores.

'The elements of Persuasion: Big data techniques' es uno de los capítulos más teóricos y repasa las técnicas que se aplican en Big Data, algunas de las cuales ya tienen una larga historia antes de que se acuñase el término Big Data. Así se habla de métodos estadísticos como regresión o tests A/B; de visualización de datos con técnicas como mapas de calor o análisis de series temporales; automatización incluyendo inteligencia artificial, sensores o NFC; técnicas semánticas como procesamiento de lenguaje natural o análisis de sentimiento; y finalmente análisis predictivo. Se complementa el capítulo repasando el uso que de Big Data hacen los gigantes tecnológicos y de Internet: Amazon, Apple, Facebook y Google.

'Big Data solutions' es el capítulo de carácter más tecnológico y en él se pasa revista a las principales tecnologías y soluciones existentes hoy día, entre las cuales goza de una enorme preponderancia Hadoop y sus derivados. Se habla de Hadoop, Cloudera, de bases de datos NoSQL, bases de datos columnares o newSQL y también se mencionan algunas startups como Kaggle.

En el quinto capítulo, 'Case studies: the big rewards of Big Data', se presentan, como el título anuncia, tres casos reales de aplicación de Big Data. En concreto se presenta el caso de Quancast (selección de público para campañas de publicidad), Explorys (atención sanitaria) y la propia NASA.

'Taking the big plunge' proporciona una serie de precauciones y consejos para la implantación de una iniciativa de Big Data.

'Big Data: big issues and big problems' continúa, en cierto sentido, la temática iniciada en el capítulo anterior pero centrándose ahora en advertir de los problemas que se pueden presentar como, por ejemplo, los relativos a privacidad y seguridad.

Finalmente, 'Looking forward: the future of Big Data' intenta avistar el futuro que espera a este fenómeno de Big Data, siendo dos los principales argumentos: Big Data está aquí para quedarse pero, también, Big Data evolucionará, no permanecerá como lo conocemos hoy día.

Debe considerarse 'Too big to ignore' como un libro introductorio o de divulgación sobre Big Data (aunque de más profundidad que una divulgación habitual), una guía para entender los aspectos más relevantes de este fenómeno. En ese sentido cumple muy bien su cometido. Sin embargo, debe advertirse, por lo mismo, que no se trata ni de un libro plenamente tecnológico ni plenamente de negocio, por lo que quien desee profundizar en alguna de esas dos facetas, deberá emplear fuentes adicionales.

Phil Simon:

Tras graduarse en la Universidad Carnegie Mellon en 1993 ingresó en Sony Eletronics en el área de relaciones con clientes. En Agosto de 1995 asistió a clases en Cornell University y durante su internado en 1996 comenzó e trabajar con tecnologías emergentes como sistemas ERP y de reporting.

Tras graduarse, tuvo una corta carrera en el área de recursos humanos pero rápidamente se orientó a trabajar con la tecnología, los datos y los sistemas. En 1988 tuvo su primer trabajo en el área de IT viajando frecuentemente por Latinoamérica como parte de un proyecto global sobre PeopleSoft para una empresa de Fortune 500. Durante ese tiempo aprendió uso avanzado de herramientas Microsoft como Ecel, Access, Crystal Reports, SQL y muchas otras aplicaciones. Se hizo adepto al tratamiento de datos empresariales. Comenzó a trabajar a tiempo completo en consultoría en 2000. Impartió clases sobre software a clientes y colegas y, en 2002 decidió hacerse su propio jefe.

Hoy en día, realiza consultoría para todo tipo de organizaciones en materias relacionadas con estrategia, gestión de datos y tecnología. Ha tenido más de 100 clientes en una variedad de sectores incluyendo salud, fabricación, distribución, educación, telecomunicaciones y sector público.

Además de consultor y conferenciante, ha escrito seis libros: 'Why New Systems Fail' (2010), 'The Next Wave of Technologies' (2010), 'The New Small' (2010), 'The Age of the Platform' (2011), 'Too Big to Ignore: The Business Case for Big Data' (2013) y 'The Visual Organization: Data Visualization, Big Data, and the Quest for Better Decisions' (2014).

Puedes saber más sobre el libro y el autor en la página oficial del autor. También puedes seguir al autor en Twitter en la cuenta @philsimon

Ficha técnica:

AUTOR: Phil Simon
EDITORIAL: Wiley
AÑO: 2013
ISBN: 978-1118638170
PAGINAS: 256

Artículos de este blog relacionados

miércoles, 23 de abril de 2014

Jugando con tus clientes. La gamificación como investigación de mercado.

Parece como si nos hubiésemos vuelto todos un poco más lúdicos, un poco más infantiles... o quizá simplemente es que ahora estamos dispuestos a reconocerlo y sacarle partido.

Es por ello que desde hace unos años goza de fama e interés el concepto de 'gamificatión' es decir, la aplicación de la mecánica propia de los juegos en entornos 'mas serios' fuera del contexto natural de los juegos. Así se aplican técnicas como la competición, la recompensa ante la consecución de logros, la narratividad, etc. 

La gamificación encuentra muchos usos como la fidelización de clientes, la ideación, la formación y un cada vez más largo etcétera.

En su libro 'Innovation games', Luke Hohmann nos propone el uso de juegos como una forma de investigación de mercados. En el libro se proponen varios juegos que tienen en común que los que juegan son los clientes y que el objetivo básico es conocer qué opinan y, sobre todo qué desean, de nuestros productos.

¿Interesante, verdad?

Este post es muy cortito y sólo me sirve como una brevísima introducción. En algún post cercano desgranaré alguna idea adicional y una idea somera sobre los juegos concretos que propone el autor.

Además de interesante resultará, espero, divertido... :)
 

lunes, 21 de abril de 2014

Disrupción versus lo 'posible adyacente': la viabilidad de la audacia en innovación

En una época en que, afortunadamente, se valoran de forma creciente, al menos en teoría, el emprendimiento y la innovación, tendemos a aspirar a lo máximo, a la innovación disruptiva, aquella que cambia las leyes del juego, que transforma o crea mercados.

La idea es atractiva y es cierto que, como diría Nassim Nicholas Taleb, los cisnes negros existen, o como buscaría W. Chan Kim, hay océanos azules.

No obstante, puede que no toda innovación sea posible, que sean necesarias unas circunstancias o un contexto que la posibiliten.

De una forma colateral al tema principal del libro, me encuentro en 'Too big to ignore' de Phil Simon una mención al concepto de lo 'posible adyacente' (no se me ocurre una mejor traducción que la literal para el término 'adjacent possible' original).

Este término, que menciona Stephen Johnson en su libro publicado en 2010 'Where good ideas come from: the natural history of innovation' (probablemente una referencia a apuntar para futura lectura) y que aparentemente fue acuñado por Stuart Kauffman aunque en un contexto completamente diferente (sistemas biológicos autoorganizados) nos vendría a decir, aplicado a la innovación, que:

 innovations must rely largely upon components and materials that currently - or soon will.

El autor, Stephen Johnson, lo ejemplifica con el caso de Charles Babbage quien inventó algo que podría ser el ordenador moderno...pero que no fue viable en su momento porque, era 'demasiado innovador' para su época.

Entonces... ¿en qué quedamos?

Se me ocurre la siguiente explicación, la siguiente propuesta. En general, las innovaciones tienen muchas más posibilidades de tener éxito (en el sentido de conseguir una realidad comercial  razonable) cuando son incrementales (caso en que son claramente 'posibles adyacentes'). 

Sin embargo hay casos más disruptivos, más rompedores. Algunos son disruptivos en su apariencia...pero se apoyan en realidades existentes...en lo 'adyacente posibe'. Éstos casos serían los cisnes negros y los océanos azules, los éxitos disruptivos. Hay otros casos de disrupción que se salen fuera de lo adyacente posible...y que, simplemente, no son viables, o no en el momento en que se idean. Pueden serlo en el futuro o pueden morir. O también puede irse construyendo escalonadamente lo adjacente posible...hasta alcanzar la disrupción final...aunque tal vez entonces pierda su apariencia de disrupción.

En cualquier caso ¿cómo reconocer si existe un adyacente posible si no se intenta la disrupción?

Necesitamos a quien tenga imaginación y audacia, quien piense más allá y, sobre todo, quien lo intente...

Reconocimiento y ánimo, pues, a los audaces, a los profundamente innovadores, a los disruptivos...

viernes, 18 de abril de 2014

En busca de la tecnología en Big Data

Es, quizá, un vicio demasiado extendido en el mundo de la tecnología o, por mejor decir, en el del marketing tecnológico: hablamos de tecnología...pero sin hablar de tecnología.

Se venden los beneficios para las empresas, para el negocio o la transformación de la sociedad que una nueva tecnología puede inducir...pero no se indica cómo, no se dan pistas acerca de en qué consiste la tecnología subyacente, no se explica dónde está la raíz de la novedad. Se utilizan grandes términos generalistas, pero no se detalla.

No sé si es que se asume que el público general no está interesado realmente en la tecnología sino en sus usos y beneficios; no sé si se piensa que ese público no es capaz de entender la tecnología... o no sé si es que, en ocasiones, no hay tal novedad tecnológica y estamos hablando más de marketing que de tecnología.

Esa sensación de falta de explicación tecnológica me la he encontrado, por ejemplo, intentando entender el fenómeno de Big Data. Encuentro muy frecuentes menciones a los cambios recientes en la naturaleza de los datos, a la proliferación de tipos de datos no estructurados, a la influencia de los medios sociales con toda su información no relacional que contienen, a la generación de masivas cantidades de datos, al abaratamiento del almacenamiento... y también encuentro frecuentes menciones a los beneficios de un conocimiento profundo del cliente, a los análisis de sentimiento, a la captura de tendencias...

Todo ello lo entiendo, lo valoro y me interesa.

Pero... ¿dónde está la tecnología?

¿Que nuevas estructuras de información se precisan? ¿Qué algoritmos gestionan esos nuevos tipos de datos? ¿Qué optimizaciones se aplican para manejar de forma eficiente esas masivas cantidades de información? ¿Hay nuevo hardware en discos o memorias? ¿Nuevos modos de indexación? ¿Nuevos algoritmos o lenguajes de consulta? ¿Nuevos conceptos en transaccionalidad? ¿Qué pasa con los SGBD relacionales? ¿Cómo se integran, si es que lo hacen, en los modelos de Big Data?

Aunque, en efecto, la tecnología 'profunda' es dura, echo en falta algo de explicación que, siquiera, me permita vislumbrar el cambio tecnológico subyacente tras un fenómeno que tanto da que hablar.

En el libro 'Too big to ignore' de Phil Simon, encuentro, no una profunda explicación tecnológica pero si, al menos, algunas pistas de las que tirar.

Observo la importancia que se le concede a las nuevas bases de datos NoSQL que, entiendo, agrupan realmente un conjunto de nuevos (en algunos casos no tan nuevos) tipos de bases de datos. También observo la emergencia del concepto de las bases de datos columnares... y me quedo con la preponderancia de Hadoop como plataforma real con su sistema de archivos HDFS (Hadoop Distributed File System) que sí parace tener algo que decir.

Quizá el lector conozca en profundidad estas tecnologías y no valore el hallazgo pero a mi me ha costado un tiempo (bien es verdad que algo disperso y de de escasa dedicación, a modo de hobby y no como actividad profesional) el llegar a disponer de la más mínima pista de naturaleza tecnológica, acerca de qué había detrás de Big Data.

Es, quizá, un vicio demasiado extendido en el mundo de la tecnología o, por mejor decir, del marketing tecnológico: hablamos de tecnología...pero sin hablar de tecnología. Es posible que eso simplifique los mensajes y los haga más accesibles al gran público...pero también es cierto que en ocasiones genera la sensación de 'venta de humo', la duda de si realmente hay una tecnología o sólo marketing. Y hace dudar...

Ya dispongo de algunas pistas tecnológicas sobre Big Data. Cuando pueda profundizar en ellas, espero descubir que, en efecto, hay tecnología detrás de Big Data y que esta nuevo y prometedor fenómeno puede, realmente, ponerse a la altura de su promesa.

miércoles, 16 de abril de 2014

... y cinco trampas a evitar al implantar Big Data

Si en el artículo anterior, Phil Simon nos hacía llegar quince temas importantes a tener en cuenta respecto a Big Data, bastante más adelante en su libro 'Too big to ignore' nos advierte de algunos errores típicos a evitar en la implantación de Big Data.

Estas son los cinco errores, las cinco trampas en realidad, en las que no se debe caer al implantar Big Data:
  • Tomarlo como todo o nada: Big Data no es una propuesta de todo o nada. Existen diferentes grados y no son necesarios absolutamente "todos" los datos.

  • Tomarlo como una iniciativa aislada: Con frecuencia las iniciativas de Big Data se ven como caprichos, iniciativas aisladas y transitorias de CEOs o CIOs. Es necesario hacer que la implantación de Big Data lleve consigo un auténtico cambio, que tenga influencia en la cultura de la empresa y los empleados.

  • Tomarlo como un proyecto colateral: la implantación de Big Data es un proyecto complejo, nuclear, que precisa preparación y especialistas. Es necesario 'tomárselo en serio' y de forma profesional.

  • Pensar que existe una receta: No existe una receta o una checklist para la implantación de Big Data. Cada empresa y cada caso tiene sus especificidades.

  • Pensar que la TI es la dueña de Big Data: Big Data, como otras grandes iniciativas relacionadas con la Tecnología, no puede verse como una iniciativa exclusivamente de TI. Es necesario que las líneas de negocio de la compañía y la TI vayan de la mano. Es más, las líneas de negocio son las verdaderas dueñas de los datos y, en ese sentido, deberían asumir el liderazgo correspondiente.
Si se observan con una cierta distancia, podríamos eliminar la palabra Big Data y sustituirla por cualquier otra gran iniciativa de cambio o transformación apoyada en la tecnología...y reconocerámos prácticamente las mismas trampas, los mismos errores típicos.

Siendo esto así, en el fondo, lo que debemos aprender es que una implantación en serio de Big Data se convierte en un proyecto de transformación empresarial, de cambio, y como tal ha de ser tratado, con rigor y recursos, con apoyo de la dirección y con liderazgo por las líneas de negocio, no delegándolo exclusivamente en el departamento de TI.

lunes, 14 de abril de 2014

Quince cosas que hay que saber sobre Big Data

No es fácil definir Big Data y, por alguna razón, tampoco hay demasiada literatura acerca de sus especificidades técnicas. Sin embargo, sí hay características, ideas comunes o aspectos a conocer y recordar.

En su libro 'Too big to ignore', Phil Simon nos habla de quince características. Dada la naturaleza de las propuestas, más que características, creo que son apreciaciones y particularidades a conocer y recordar sobre Big Data.

Éstas son esas quince cosas a recordar:
  • Ya está aquí: No se trata de un fenómeno para el futuro o en su infancia. Referencias tan relevantes como Amazon, Facebook, Apple, Twitter, LinkedIn, IBM, etc son suficientes para avalar un fenómeno que está aquí para quedarse.

  • Está extremadamente fragmentado: Hay muchos datos, hay muchos fenómenos en la 'long tail', hay mucho 'ruido' y quizá poca señal...pero esa señal existe y las técnicas de Big Data permiten encontrarla.

  • No es un elixir: aunque muy importante, Big Data no sustituye a la gestión de datos tradicional ni tampoco hace milagros resucitando negocios agonizantes. Simplemente, se trata de un fenómeno emergente e importante...no milagroso.

  • 'Small data' extiende 'Big Data': Los datos tradicionales, estructurados ('small data') siguen siendo valiosos y contienen un gran valor descriptivo. Además, las organizaciones que gestionan bien el 'small data' estarán mejor preparadas para el 'Big Data'.

  • Es un complemento, no un sustituto: por lo anterior, Big Data debe verse como un complemento, no un sustituto, de la gestión de datos tradicional.

  • Puede proporcionar mejores predicciones: complementa las técnicas típicamente basadas en datos históricos con otro tipo de información. Aún así, Big Data sólo puede asegurar mejores predicciones...pero no adivinar el futuro.

  • Es un arma de doble filo: a pesar de sus grandes beneficios, Big Data también tiene sus peligros: es un arma de doble filo. El conocimiento que proporciona y la inmediatez también pueden perjudicar, por la amplificación que suponen, a compañías que toman decisiones equivocadas.

  • No es ni omnisciente ni preciso: Big Data acota, pero no elimina, la incertidumbre ni los cisnes negros. Aún hay espacio para lo imprevisto y para la sorpresa.

  • Es en general ancho, no largo: Si en los sistemas de gestión de bases de datos relacionales tradicionales, suele haber muchas filas (registros) de un número relativamente limitado y muy estable de columnas (datos en cada registro), Big Data tiende a añadir, de forma dinámica, nuevos datos por cada registro. De hecho, el concepto de fila tiende a difuminarse en Big Data y aparecen, por ejemplo, las bases de datos columnares.

  • Es dinámico y ampliamente impredecible: El mercado actual es dinámico y, muchas veces debido a cambios tecnológicos, impredecible. Big Data no puede eliminar ese dinamismo ni incertidumbre.

  • Está en gran parte dirigido por los consumidores: debido al creciente fenómeno de la 'consumerización', los consumidores generan y acceden a crecientes cantidades de datos. Por ello, son los consumidores, más que las empresas, los que dirigen de alguna forma el nacimiento y evolución de Big Data.

  • Es externo y no gestionable en el sentido tradicional: los datos que maneja Big Data en general se generan fuera de los contornos corporativos por lo que no se pueden controlar y gestionar como un activo propio.

  • Es inherentemente incompleto: a pesar del volumen de datos que maneja Big Data, no existe tal cosa como un conjunto de datos absolutamente completo.

  • Superposición con Business Intelligence: Big Data tiene que ver con Business Intelligence en sus objetivos (obtener valor a partir de la información) pero especialmente debido al tipo de datos que manejan (estructurados en el caso de Business Intelligence y fundamentalmente no estructurados o semiestructurados en el caso de Big Data) se aplican técnicas y soluciones diferentes.

  • Es democrático: al contrario que, por ejemplo, Business Intelligence, Big Data no surge en el entorno corporativo sino que aperecee en una era de apertura y así, las soluciones fundamentales como Hadoop y NoSQL, provienen de comunidades de software libre.


Estas quince apreciaciones no constituyen características de Big Data en el sentido técnico o a efectos de definición, pero sí son aspectos que creo importantes a conocer y recordar sobre Big Data.


viernes, 11 de abril de 2014

El valor de la intuición en una sociedad de la información

Vivimos en un mundo inundado de datos, datos que se transmiten y son accedidos desde todo tipo de dispositivos, datos cada vez más diversos,más abundantes, más complejos.

¿Queda sitio para  la intuición en este mundo plagado de datos?

Aunque creo no se conoce totalmente la naturaleza de la intuición, su mecanismo cognitivo profundo, sí me parece entender que la intuición no es una verdadera magia, sino un proceso cognitivo que es capaz de obtener de forma espontánea unas conclusiones, unas ideas sencillas y accionables, a partir de unos datos complejos, quizá incompletos, quizá no del todo coherentes... o quizá demasiado abundantes...

A pesar de que tendemos a conceder un valor superior a los mecanismos de razonamiento consciente, racionales, probablemente la intuición sea un mecanismo cognitivo muy complejo, muy avanzado en realidad. Un mecanismo que, de una forma sólo en apariencia mágica, obtiene conocimiento probable a partir de una masa informe de datos.

Si disponemos de esa asombrosa capacidad de concluir en entornos imperfectos, probablemente esa facultad sea enormemente útil en una sociedad infoxificada. A la espera de que Big Data cumpla sus promesas, quizá el mejor mecanismo de que dispongamos en ocasiones para obtener algún tipo de conclusión sea la intuición, una facultad que, por tanto, no parece deba menospreciarse, sino todo lo contrario, en la sociedad de la información sobreabundante en que habitamos.

En el libro 'Too big to ignore' de Phil Simon, me encuentro esta cita, una cita atribuida a John Naisbitt, que parece abundar en las ideas que acabo de exponer:

Intuition becomes increasingly valuable in the new information society precisely because there are so much data.

Esperemos, pues, el cumplimiento de la promesa del Big Data...pero no despreciemos nuestras propias capacidades, nuestra intuición, esa especie Hadoop con el que hemos sido dotados por la naturaleza...

miércoles, 9 de abril de 2014

La web profunda o lo que escapa a los buscadores

La casi ominpresencia de Google y, en menor medida, la de otros buscadores, su increíble capacidad para acceder, indexar y presentar información, y el hecho de que la búsqueda es uno de los mecanismos más habituales para acceder a información en la web nos lleva, inconscientemente, a pensar que los buscadores rastrean y 'conocen' toda la web, que nada escapa a las redes de sus 'spiders'.

Sin embargo, parece que los buscadores no llegan tan lejos como parece.

En el libro 'Too big to ignore' de Phil Simon descubrir el concepto de Web profunda ('Deep web') que, dicho de forma sencilla, es la parte de la web que queda fuera del alcance de los buscadores.

¿Es esa una parte muy pequeña? Parece que no, que todo lo contrario, que lo que nos muestran los buscadores es la punta del iceberg, la 'web superficial'.

Según algunas estimaciones, esa web profunda constituye ni más ni menos que el 96% del contenido del web.

¿Qué hay entonces en esa web profunda? Algunos contenidos de esa web profunda son:

  • Mensajes instantáneos

  • Contenido dinámico

  • Contenido cifrado

  • Contenido que no está enlazado desde otro sitio

  • Sitios protegidos por contraseña

  • Vídeos específicamente ocultos a los ojos de los buscadores (como permite hacer fácilmente Vimeo)

  • Contenido en correos privados

  • Información corporativa y de Intranets (supuesto que no es pirateada)

  • Información personal y de salud (supuesto que no es pirateada)

  • Documentos físicos que no se encuentran en línea

  • Contenido en redes sociales cerradas (ejemplo, en Yammer o Ning)

  • Contenido en sitios privados y basados en membresía

  • Contenidos de pago


Cuando se repasa la lista es más fácil reconocer que, en efecto, hay mucho contenido no accesible vía buscador. En parte puede parecer una pena...pero por otro lado, resulta también tranquilizador saber que hay espacios de una cierta privacidad o que, al menos, hay entornos donde la información se mueve en círculos cerrados.


lunes, 7 de abril de 2014

Cuatro tipologías de datos...que también justifican el Big Data

Si en el artículo anterior veíamos tres dimensiones de los datos que justifican un poco el interés actual en Big Data, en éste revisamos las tres tipologías fundamentales de los datos, aspecto que en el artículo anterior se encuadraría dentro de la dimensión 'variedad'.

La fuente de la clasificación es la misma: el libro 'Too big to ignore' de Phil Simon.

En el primer capítulo, que titula 'Data 101 and the Data Deluge', el autor distingue cuatro tipos de datos:

  • Estructurados: que han formado el corpus fundamental de datos corporativos hasta hace poco, datos de características claras (tipo, longitud, precisión,...), con relaciones claras, que se recogen y gestionan de forma muy eficiente en bases de datos relacionales y que se encuentran en el centro de los modelos de información de soluciones ERP o CRM tradicionales.

  • No estructurados: nuevos tipos de datos sin estructura clara, no relacionales, y que no se recogen adecuadamente en tablas. Hablamos de contenidos multimedia, textos (ej, blogs), relaciones sociales, sentimientos expresados de forma ambigua...

  • Semi-estructurados: datos que mantienen una cierta estructura pero muy lejos de la formalización relacional. Podrían incluirse en este apartado, por ejemplo, datos recogidos en ficheros XML.

  • Metadatos: datos que describen otros datos. En el mundo 2.0 en que nos movemos, las etiquetas, los hashtags que utilizamos en blogs, twitter, etc, podrían ser un caso claro exponente de metadatos.

La gestión de datos tradicional se centraba en los primeros tipos de datos, los estructurados, pero la generalización de Internet, la explosión multimedia y la eclosión de los medios sociales han dado un gran empuje a los datos no estructurados, semi-estructurados y los metadatos.

En el mismo capítulo del libro citado se nos aporta un dato:

By some estimates, unstructured data is growing ten to fifty times faster than its structured counterpart.

Phil Simon resumen la situación en el siguiente párrafo:

[...] what's different now? First, [...] there's just more unstructured data today than any point in the past. Second, much of this unstructured data is digitized and available nearly instantly.

Gestionar estos tipos de datos escasamente estructurados y gestionar un gran volumen de datos es, probablemente, lo que de forma simple define al Big Data.

Y la evolución de los datos que hemos visto es lo que justifica el interés alrededor de este concepto y las tecnologías que lo soportan.

viernes, 4 de abril de 2014

Tres dimensiones de los datos... que justifican el Big Data

¿Por qué esta obsesión con el Big Data? ¿Qué ha pasado con los datos para que se les preste tanta atención?

En su libro 'Too big to ignore' Phil Simon menciona, a su vez a Douglas Laney, quien ya en 2001, antes de que apareciera el término Big Data, identificó tres dimensiones de lo que entonces denominaba el diluvio de datos ('data deluge').

Las tres dimensiones son:

  • Volumen: cantidades crecientes de datos.

  • Variedad: datos de cada vez mayor número de tipos y fuentes.

  • Velocidad: que se producen a mayor velocidad

Aunque son tres dimensiones, tres motivos, muy simples, probablemente expliquen el porqué de todo ese 'buzz' sobre Big Data y todo el interés de la industria y de los negocios en el tema.
 
Sobre la dimensión de la variedad, algún leve apunte en el próximo artículo.
 

miércoles, 2 de abril de 2014

#macrotweet: El desafío de los datos no estructurados

By some estimates, unstructured data is growing ten to fifty times faster than its structured counterpart.

Phil Simon
'Too big to ignore'