La web superficial y la web profunda (a propósito de la deep web)

No toda la web es visible

Existen dos conceptos que están tomando actualidad desde hacer algún tiempo: web superficial y web profunda. Ambas como la forma de partir la web en dos y decir que la primera es la visible, la que se encuentra desde los buscadores, y la segunda, como la que permanece invisible, lejos del acceso convencional.

La web profunda (o deep web) como concepto en ese sentido, debe abarcar un conjunto muy grande de sitios, dado que la condición fundamental es no poder ser atrapado por un buscador estándar. Basta con ver este gráfico de wikipedia para ponernos en contexto:

Fuente: https://commons.wikimedia.org/wiki/File:Deep_Web.svg
Fuente: https://commons.wikimedia.org/wiki/File:Deep_Web.svg

Lo que se muestra fuera del agua será la web superficial y lo que se muestra debajo de ella será la web profunda.

La red Tor

No obstante, el concepto de deep web se está relacionando cada vez con más frecuencia a redes de ciberdelincuencia, contenido ilegales y en general de negocios ilegales. El motivo de esta confusión se debe a que se está relacionando la deep web con el proyecto Tor. Wikipedia nos dice al respecto:

The Onion Router, abreviado en inglés como ‘Tor’, es un proyecto cuyo objetivo principal es el desarrollo de una red de comunicaciones distribuida de baja latencia y superpuesta sobre internet, en la que el encaminamiento de los mensajes intercambiados entre los usuarios no revela su identidad, es decir, su dirección IP (anonimato a nivel de red) y que, además, mantiene la integridad y el secreto de la información que viaja por ella. Por este motivo se dice que esta tecnología pertenece a la llamada darknet o red oscura también conocida con el nombre de deep web o web profunda.

Cuando se hable de Deep web, entonces, basta preguntar ¿cómo accedo a él? Si la respuesta es “instala Tor” entonces, se está hablando de acceder específicamente a la red Tor, parte de la deep web, como ya se comentó.

Sobre Tor, tenemos el artículo de xataka “Una semana en la deep web: esto es lo que me he encontrado“, donde el autor comparte su experiencia mientras navegaba por la red Tor y por otras redes de la deep web.

Hmmm....
Hmmm….

¿Qué es la deep web?

Entonces ¿qué es la deep web? Pediremos nuevamente apoyo a wikipedia:

Se le conoce así a todo el contenido de Internet que no forma parte del Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. La mayor parte de la información encontrada en la Internet Profunda está enterrada en sitios generados dinámicamente y para los motores de búsqueda tradicionales es difícil hallarla. Fiscales y Agencias Gubernamentales han calificado a la Internet Profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.

La deep web tiene muchos nombres: Deepweb, Invisible WebDeep Web, Dark Web o Hidden Web son las denominaciones más habituales. Usaremos deep web como traducción de web profunda.

Clasificación

Sherman y Price en su artículo The Invisible Web: Uncovering Sources Search Engines Can’t See, nos hablan de la web invisible, y la dividen en cuatro tipo de invisibilidades: The “Opaque” Web, The Private Web, The Proprietary Web, and The Truly Invisible Web.

La web opaca

La web opaca o la “opaque web”, consiste en archivos que pueden, pero que no están incluidos en los índices de los motores de búsqueda. La web opaca es muy grande y presenta un reto singular para un investigador.
Mientras que el contenido oculto de la web realmente invisible es acesible si sabemo cómo buscar, el material de la web opaca es comúnmente más difícil que encontrar.
Hay una variedad de razones por las cuales los motores de búsqueda no indizan este contenido:
– Profundidad de la indización
– Frecuencia de la indización
– Máximo número de resultados visibles
– URL desconectadas

La web privada

La web privada o la “private web” consiste en páginas web técnicamente indizables que han sido excluídas deliberadamente de la indización de los motores de búsqueda.
Hay tres formas en que los webmasters pueden lograr esto:
– Páginas protegidas por contraseña
– El uso del archivo robot.txt para deshabilitar el acceso del motor de búsqueda
– El uso del metatag “noindex” para prevenir que el motor de búsqueda lea el contenido de la página

La web propietaria

Éstas páginas son accesibles a las personas que estén de acuerdo con unos términos especiales para la visualización de los contenidos. Esta restricción puede ser una simple solicitud de registro, muchas veces gratuito, que los motores de búsqueda no puede realizar. Otro tipo de contenido propietario es el disponible solo mediante un pago o algún tipo de mecanismo de suscripción.
La web realmente invisible

Algunas páginas son realmente invisibles. Esto significa que hay razones técnicas por las cuales los motores de búsqueda no puede indizar el material de dichas páginas.
Por ejemplo, archivos con formatos PDF, flash, ejecutables, archivos comprimidos, etc. en la mayoría de casos, los motores de búsqueda no pueden indizarlos y en otros, los omiten a propósito.
Otro caso son las páginas generadas dinámicamente. Este contenido tampoco se indiza por temas técnicos en unos casos y en otros, por omisión intencional, por ejemplo, para evitar scripts de spam a los motores de búsqueda.
Finalmente, la información almacenada en bases de datos relacionales, la cual no se puede extraer sin un query específico a la base de datos.

Dentro de este grupo, también incluiremos a las redes diseñadas específicamente para anonimizar la información circulante y hacer imposible indizar la información, como es el caso de la red Tor.

Conclusión

La conclusión de Sherman y Price en el artículo mencionado, nos dice lo siguiente:

La web invisible es una vasta porción del ciberespacio, y ofrece invaluables recursos que no deberían ser descartados por investigadores serios. (…) La mejor forma para los investigadores de acceder a la web invisible es elaborar y guardar una colección personal de recursos, tratándolos como una librería personal de referencias. y usarla cuando lo necesite, en vez de confiar en los motores de búsqueda que en muchos casos simplemente no puede acceder al contenido que reside en la web invisible.

Nos vemos en la red.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s