miércoles, 9 de abril de 2014

La web profunda o lo que escapa a los buscadores

La casi ominpresencia de Google y, en menor medida, la de otros buscadores, su increíble capacidad para acceder, indexar y presentar información, y el hecho de que la búsqueda es uno de los mecanismos más habituales para acceder a información en la web nos lleva, inconscientemente, a pensar que los buscadores rastrean y 'conocen' toda la web, que nada escapa a las redes de sus 'spiders'.

Sin embargo, parece que los buscadores no llegan tan lejos como parece.

En el libro 'Too big to ignore' de Phil Simon descubrir el concepto de Web profunda ('Deep web') que, dicho de forma sencilla, es la parte de la web que queda fuera del alcance de los buscadores.

¿Es esa una parte muy pequeña? Parece que no, que todo lo contrario, que lo que nos muestran los buscadores es la punta del iceberg, la 'web superficial'.

Según algunas estimaciones, esa web profunda constituye ni más ni menos que el 96% del contenido del web.

¿Qué hay entonces en esa web profunda? Algunos contenidos de esa web profunda son:

  • Mensajes instantáneos

  • Contenido dinámico

  • Contenido cifrado

  • Contenido que no está enlazado desde otro sitio

  • Sitios protegidos por contraseña

  • Vídeos específicamente ocultos a los ojos de los buscadores (como permite hacer fácilmente Vimeo)

  • Contenido en correos privados

  • Información corporativa y de Intranets (supuesto que no es pirateada)

  • Información personal y de salud (supuesto que no es pirateada)

  • Documentos físicos que no se encuentran en línea

  • Contenido en redes sociales cerradas (ejemplo, en Yammer o Ning)

  • Contenido en sitios privados y basados en membresía

  • Contenidos de pago


Cuando se repasa la lista es más fácil reconocer que, en efecto, hay mucho contenido no accesible vía buscador. En parte puede parecer una pena...pero por otro lado, resulta también tranquilizador saber que hay espacios de una cierta privacidad o que, al menos, hay entornos donde la información se mueve en círculos cerrados.