lunes, 22 de junio de 2015

Módulo 4 : Web Superficial y Web Profunda

La Web Superficial o visible:

A través de los buscadores tradicionales podemos acceder a la Web Superficial o visible.  La búsqueda de información es de libre acceso, no es necesario un registro para acceder a la información. La información no está contenida en bases de datos. En la mayoría está formada por páginas o archivos con una URL fija y accesibles desde otro enlace.



La Web Profunda o invisible:

No podemos acceder a través de los buscadores tradicionales. La nformación es almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Según Lluis Codina debería llamarse "la web no indizable" ya que se refiere al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público.

Clasificación de la Web Profunda o invisible:


He realizado un esquema para que sea visiualmente más atractiva con la herramienta bubbl.us. Es  una herramienta muy fácil de usar que recomiendo.



En un estudio realizado en 2001, Sherman y Price clasificaron la Internet Invisible en cuatro categorías distintas: la web opaca (the opaque web), la web privada (the prívate web), la web propietaria (the proprietary web) y la web realmente invisible (the truly invisible web) .


 Web Opaca

Esta categoría está formada por los archivos que podrían aparecer en los motores de búsqueda pero que no lo hacen por alguna de las siguientes razones:
  •  Extensión de la indización: los buscadores no indizan todas las páginas de un sitio web por razones económicas.
  •  Frecuencia de la indización: aunque cada día se crean, modifican o eliminan páginas web, la indización realizada por los motores de búsqueda no sigue el mismo ritmo, razón por la cual hay páginas existentes en la web que aún no han sido indexadas y, por lo tanto, forman parte de la web invisible.
  •  Número máximo de resultados visibles: no todas las páginas existentes en la web, aun siendo indexadas por los buscadores, aparecen en la lista de resultados generada por los mismos, ya que éstos limitan el número de documentos mostrados (entre 200 y 1000 documentos).
  • URL’s desconectados: los grandes buscadores actuales presentan la lista de resultados en orden de relevancia de los documentos según éstos hayan sido ligados en otros y basándose en el número de veces que aparecen referenciados. Si un documento no se encuentra enlazado por ningún otro,es posible que éste no sea descubierto, ya que no habrá sido indizado.


Web Privada


Esta categoría está formada por las páginas web que podrían aparecer en los motores de búsqueda pero que éstos no las indizan debido a que son excluidas intencionadamente por algunas de las siguientes razones:
  • El propietario del sitio web pretende mantener una página sin ser enlazada desde ningún otro sitio dentro de su propio dominio, de esta forma un usuario no puede encontrar dicha página navegando dentro de esa web. Esta técnica no es muy efectiva ya que aunque el propietario intente mantener esa página oculta, puede aparecer en algún lugar su enlace y, por lo tanto, será referenciada.
  • La página está protegida mediante el uso de contraseñas (passwords). Se puede hacer mediante dos formas principales: la primera es utilizando el archivo .htaccess (esta forma se utiliza cuando no se tiene acceso al servidor), y la segunda es utilizando el panel de administración (cuando tienes acceso al servidor).
  • La página contiene un archivo robots.txt que no permite la indización de la misma o de partes de la misma.
  • En la página aparece una etiqueta “noindex” que le indica a los robots de los buscadores que no deben indizar esa página.
  • El propietario ha bloqueado la URL de la página en Google Webmaster Tools. Esta herramienta permite eliminar la página de Google una vez que haya sido indexada, pero no impide su indezación.

 Web propietaria

En esta categoría se incluyen las páginas a las que los usuarios solo pueden acceder a su contenido mediante el registro en las mismas, ya sea de forma gratuita o pagada. 
El contenido perteneciente a esta categoría ha aumentado con el paso de los años debido, en gran medida, a la aparición de las redes sociales, que necesitan el registro de los usuarios para acceder a las mismas.

 Web Realmente Invisible


Esta categoría está compuesta por aquellas páginas que no pueden ser indizadas por los buscadores debido a limitaciones técnicas de los mismos, como por ejemplo:
  • Páginas web que contienen documentos en formatos pdf, PostScript, Flash,Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas dinámicas. Aquellas generadas partiendo de los datos que mete el usuario.
  •  Información almacenada en bases de datos relacionales. Esta información no puede ser extraída a menos que se haga una petición específica sobre ella. Además, se añaden otras dificultades como la estructura y diseño de las bases de datos y los procedimientos de búsqueda existentes.Sin embargo, a lo largo de estos años los grandes buscadores como Google han ido desarrollando algoritmos nuevos que le permiten rastrear algunos formatos de archivos, documentos y bases de datos mencionados anteriormente que antes quedaban excluidos.

 ¿Qué podemos encontrar en la Internet Invisible

En la Internet Invisible se puede encontrar una gran cantidad de información, el problema es saber encontrarla. La mayor parte de los usuarios cree que la Internet Invisible sólo almacena contenido ilegal e inmoral, pero esto no es cierto, ya que se puede encontrar información bastante útil y de gran calidad. Podemos encontrar desde bibliotecas con mucho material, revistas, diccionarios ,expedientes y archivos clasificados, hasta un gran número de actividades ilegales,como páginas de pedofilia, venta de drogas, construcción de bombas, etc. Se recomienda mantenerse alejado de cualquier cosa que aparezca etiquetada como “chan”, “CP” o “Candy” ya que posiblemente se trate de sitios de pornografía infantil. Hay que evitar a toda costa la etiqueta CP.

 Por el lado bueno de la Internet Invisible, podemos encontrar guías y listados telefónicos, e-mail y todo tipo de directorios, incluyendo listas de profesionales de cualquier disciplina. También podemos encontrar la venta de productos a través de e-commerce, leyes, decretos, casi cualquier tipo de información legal (aunque ésta también puede ser encontrada en webs estáticas), archivos multimedia y publicaciones digitales de libros y diarios. En esta parte también podemos encontrar sitios donde se comparten distintos conocimientos sobre sistemas, seguridad y muchas más cosas que sin duda resultan interesantes y no tienen ningún tipo de consecuencias para el usuario promedio.
Algunos de los recursos de búsqueda que podemos encontrar aquí son:
  • The WWW Virtual Library que contiene el catálogo más antiguo de laweb.
  • Infoplease es una Web a la que se pude acceden a encoclopedias, atlas y biografías.
  • DeepWebTech que ofrece motores de búsqueda que abarcan la ciencia, la mediciona y negocios .
  • TechXtra para acceder a resvistas especializadas de ingenería, documentos tećnicos, descartas y popcasts.
Por el lado malo, en esta parte de Internet también podemos encontrar pedofilia, venta de drogas, hackers, sicarios, películas hardcandy...También podemos encontrar manuales para fabricar bombas, venta de órganos, procedimientos para envenenar, mutilaciones, manuales de guerrilla, lavado de dinero y un sinfín de cosas más en torno a este campo. 



Aquí os dejo una presentación visual de la Web profunda que he realizado con el programa thinklink. Con ésta herramienta se puede hacer una presentación visual atractiva. He seleccionado diferentes documentos y formatos para ello. Al pasar el ratón por los iconos y hacer click se abre el documento. He utilizado la versión gratuita que limita el uso de iconos y de posibilidades. De todas maneras me parece una herramienta muy útil para presentar de forma más atractiva los documentos. !Espero que os guste!


  La fotografía utilizada pertenece a  http://www.runawaybrit.com/2013/12/05/jokulsarlon-finding-icebergs-on-the-beach-in-iceland/

10 comentarios:

  1. ¡Ha quedado genial, menudo trabajazo te has pegado!

    Un saludo

    JL

    ResponderEliminar
  2. Muy chulo! Y por lo que veo en cuanto a búsqueda de documentación interesante también le has echado ganas, resulta muy interesante. Me gusta mucho! Enhorabuena! ;)

    ResponderEliminar
  3. Muy buen blog y buena presentación de nuevas herramientas ;)

    ResponderEliminar
  4. Genial, gracias por la ino extra de lo malo o dañino qque tambien podemos encontrar en la red :)

    ResponderEliminar
  5. Genial, gracias por la ino extra de lo malo o dañino qque tambien podemos encontrar en la red :)

    ResponderEliminar
  6. La entrada en el Blog está muy bien, con una explicación muy detallada y estudiada. En cuanto a la presentación, que voy a decir, está genial. Felicidades.
    Saludos

    ResponderEliminar
  7. Hola y Felicitaciones, tu entrada del blog, está muy muy buena, se nota la dedicación en la construcción y el uso de las herramientas de software quedaron muy bien y pertinentes al tema, su dieño estça acorde al trabajo. Saludos. Rubén Espejo. Mendoza. Argentina.

    ResponderEliminar