La Web Superficial o visible:
A través de los buscadores tradicionales podemos acceder a la Web Superficial o visible. La búsqueda de información es de libre acceso, no es necesario un registro para acceder a la información. La información no está contenida en bases de datos. En la mayoría está formada por páginas o archivos con una URL fija y accesibles desde otro enlace.
La Web Profunda o invisible:
No podemos acceder a través de los buscadores tradicionales. La nformación es almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP,
PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante
(temporales) desapareciendo una vez cerrada la consulta.
Según Lluis Codina debería llamarse "la web no indizable" ya que se refiere al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público.
Clasificación de la Web Profunda o invisible:
En un estudio
realizado en 2001, Sherman y Price clasificaron la Internet Invisible en cuatro
categorías distintas: la web opaca (the opaque web), la web privada (the prívate
web), la web propietaria (the proprietary web) y la web realmente invisible
(the truly invisible web) .
Web Opaca
Esta categoría está
formada por los archivos que podrían aparecer en los motores de búsqueda
pero que no lo hacen por alguna de las siguientes razones:
- Extensión de la indización: los buscadores no indizan todas las páginas de un sitio web por razones económicas.
- Frecuencia de la indización: aunque cada día se crean, modifican o eliminan páginas web, la indización realizada por los motores de búsqueda no sigue el mismo ritmo, razón por la cual hay páginas existentes en la web que aún no han sido indexadas y, por lo tanto, forman parte de la web invisible.
- Número máximo de resultados visibles: no todas las páginas existentes en la web, aun siendo indexadas por los buscadores, aparecen en la lista de resultados generada por los mismos, ya que éstos limitan el número de documentos mostrados (entre 200 y 1000 documentos).
- URL’s desconectados: los grandes buscadores actuales presentan la lista de resultados en orden de relevancia de los documentos según éstos hayan sido ligados en otros y basándose en el número de veces que aparecen referenciados. Si un documento no se encuentra enlazado por ningún otro,es posible que éste no sea descubierto, ya que no habrá sido indizado.
Web Privada
Esta categoría está
formada por las páginas web que podrían aparecer en los motores de
búsqueda pero que éstos no las indizan debido a que son excluidas intencionadamente
por algunas de las siguientes razones:
- El propietario del sitio web pretende mantener una página sin ser enlazada desde ningún otro sitio dentro de su propio dominio, de esta forma un usuario no puede encontrar dicha página navegando dentro de esa web. Esta técnica no es muy efectiva ya que aunque el propietario intente mantener esa página oculta, puede aparecer en algún lugar su enlace y, por lo tanto, será referenciada.
- La página está protegida mediante el uso de contraseñas (passwords). Se puede hacer mediante dos formas principales: la primera es utilizando el archivo .htaccess (esta forma se utiliza cuando no se tiene acceso al servidor), y la segunda es utilizando el panel de administración (cuando tienes acceso al servidor).
- La página contiene un archivo robots.txt que no permite la indización de la misma o de partes de la misma.
- En la página aparece una etiqueta “noindex” que le indica a los robots de los buscadores que no deben indizar esa página.
- El propietario ha bloqueado la URL de la página en Google Webmaster Tools. Esta herramienta permite eliminar la página de Google una vez que haya sido indexada, pero no impide su indezación.
Web
propietaria
En esta categoría
se incluyen las páginas a las que los usuarios solo pueden acceder a su
contenido mediante el registro en las mismas, ya sea de forma gratuita o pagada.
El contenido
perteneciente a esta categoría ha aumentado con el paso de los años debido, en
gran medida, a la aparición de las redes sociales, que necesitan el registro de los
usuarios para acceder a las mismas.
Web Realmente Invisible
Esta categoría está
compuesta por aquellas páginas que no pueden ser indizadas por los
buscadores debido a limitaciones técnicas de los mismos, como por ejemplo:
- Páginas web que contienen documentos en formatos pdf, PostScript, Flash,Shockwave, programas ejecutables y archivos comprimidos.
- Páginas dinámicas. Aquellas generadas partiendo de los datos que mete el usuario.
- Información almacenada en bases de datos relacionales. Esta información no puede ser extraída a menos que se haga una petición específica sobre ella. Además, se añaden otras dificultades como la estructura y diseño de las bases de datos y los procedimientos de búsqueda existentes.Sin embargo, a lo largo de estos años los grandes buscadores como Google han ido desarrollando algoritmos nuevos que le permiten rastrear algunos formatos de archivos, documentos y bases de datos mencionados anteriormente que antes quedaban excluidos.
¿Qué podemos encontrar en la Internet Invisible
En la Internet
Invisible se puede encontrar una gran cantidad de información, el
problema es saber encontrarla. La mayor parte de los usuarios cree que la Internet
Invisible sólo almacena contenido ilegal e inmoral, pero esto no es cierto, ya que se
puede encontrar información bastante útil y de gran calidad. Podemos encontrar
desde bibliotecas con mucho material, revistas, diccionarios ,expedientes y
archivos clasificados, hasta un gran número de actividades ilegales,como páginas de
pedofilia, venta de drogas, construcción de bombas, etc. Se recomienda
mantenerse alejado de cualquier cosa que aparezca etiquetada como
“chan”, “CP” o “Candy” ya que posiblemente se trate de
sitios de pornografía
infantil. Hay que evitar a toda costa la etiqueta CP.
Por el lado bueno de
la Internet Invisible, podemos encontrar guías y listados
telefónicos, e-mail y todo tipo de directorios, incluyendo listas de profesionales de
cualquier disciplina. También podemos encontrar la venta de productos a través
de e-commerce, leyes, decretos, casi cualquier tipo de información legal
(aunque ésta también puede ser encontrada en webs estáticas), archivos multimedia
y publicaciones digitales de libros y diarios. En esta parte también podemos
encontrar sitios donde se comparten distintos conocimientos sobre sistemas,
seguridad y muchas más cosas que sin duda resultan interesantes y no tienen ningún
tipo de consecuencias para el usuario promedio.
Algunos de los recursos de búsqueda que podemos encontrar aquí son:
- The WWW Virtual Library que contiene el catálogo más antiguo de laweb.
- Infoplease es una Web a la que se pude acceden a encoclopedias, atlas y biografías.
- DeepWebTech que ofrece motores de búsqueda que abarcan la ciencia, la mediciona y negocios .
- TechXtra para acceder a resvistas especializadas de ingenería, documentos tećnicos, descartas y popcasts.
Por el lado malo, en
esta parte de Internet también podemos encontrar pedofilia, venta de drogas, hackers, sicarios, películas
hardcandy...También podemos encontrar manuales para fabricar bombas,
venta de órganos, procedimientos para envenenar, mutilaciones, manuales de
guerrilla, lavado de dinero y un sinfín de cosas más en torno a
este campo.
Aquí os dejo una presentación visual de la Web profunda que he realizado con el programa thinklink. Con ésta herramienta se puede hacer una presentación visual atractiva. He seleccionado diferentes documentos y formatos para ello. Al pasar el ratón por los iconos y hacer click se abre el documento. He utilizado la versión gratuita que limita el uso de iconos y de posibilidades. De todas maneras me parece una herramienta muy útil para presentar de forma más atractiva los documentos. !Espero que os guste!
La fotografía utilizada pertenece a http://www.runawaybrit.com/2013/12/05/jokulsarlon-finding-icebergs-on-the-beach-in-iceland/
¡Ha quedado genial, menudo trabajazo te has pegado!
ResponderEliminarUn saludo
JL
Muchas gracias Jose.
EliminarMuy chulo! Y por lo que veo en cuanto a búsqueda de documentación interesante también le has echado ganas, resulta muy interesante. Me gusta mucho! Enhorabuena! ;)
ResponderEliminarMuchas gracias Raquel.
EliminarMuy buen blog y buena presentación de nuevas herramientas ;)
ResponderEliminarMuchas gracias Angie.
EliminarGenial, gracias por la ino extra de lo malo o dañino qque tambien podemos encontrar en la red :)
ResponderEliminarGenial, gracias por la ino extra de lo malo o dañino qque tambien podemos encontrar en la red :)
ResponderEliminarLa entrada en el Blog está muy bien, con una explicación muy detallada y estudiada. En cuanto a la presentación, que voy a decir, está genial. Felicidades.
ResponderEliminarSaludos
Hola y Felicitaciones, tu entrada del blog, está muy muy buena, se nota la dedicación en la construcción y el uso de las herramientas de software quedaron muy bien y pertinentes al tema, su dieño estça acorde al trabajo. Saludos. Rubén Espejo. Mendoza. Argentina.
ResponderEliminar