Internet superficial, Internet profunda e Internet oscura
¿Qué es la Web visible?
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.Las características principales de los sitios de la Web visible son:
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
¿Qué es la Web invisible?
La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.
Estrategias de búsqueda en la web
Muchas veces, resulta tan frustrante
no encontrar información en la web, como confuso disponer de demasiadas
opciones de búsqueda y no saber cómo emprenderla. A continuación presento algunas
estrategias generales que deben tenerse en cuenta para utilizar las diferentes
herramientas de búsqueda en la web de forma más rápida y eficiente. Los rubros
bajo los cuales aparecen son orientativos.
- Usar varios recursos de búsqueda, y no ceñirse a uno exclusivamente para todos los tipos de búsqueda.
- Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guías y recursos más útiles. Guardar la selección en un archivo de “Favoritos” (bookmarks) en nuestra computadora y/o en un servicio de acceso remoto a “favoritos” que permita consultar el archivo desde cualquier computadora con acceso a la web, como Backflip.
- Consultar a los bibliotecarios para recibir orientación sobre estrategias de búsqueda y localización de recursos de información en la web, y para obtener documentos.
- · Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de búsqueda.
- Usar buscadores o metabuscadores para localizar información de la que poseemos datos específicos.
- Usar directorios o guías para explorar áreas de interés temático.
- · Usar buscadores o metabuscadores para realizar búsquedas por palabras.
- · Usar directorios o guías para revisar por categorías.
- ·Usar metabuscadores para realizar búsquedas generales en muchos buscadores a la vez.
- ·Usar los concentradores o directorios de buscadores para buscar en varios buscadores especializados.
- ·Seleccionar e instalar en nuestra computadora la versión gratuita de algún motor avanzado o agente auxiliar para las búsquedas en la web.
- ·Solicitar la adquisición para uso institucional de la versión completa de algún motor avanzado o agente auxiliar para las búsquedas en la web.
- ·Usar buscadores con opciones avanzadas de búsqueda.
- Usar directorios anotados o guías.
- ·Usar las guías temáticas para conocer los principales recursos de información que cubren nuestros intereses.
- Usar directorios especializados para búsquedas exhaustivas de recursos.
- · Usar mecanismos de búsqueda en la web invisible cuando se hayan agotado los mecanismos de búsqueda en la web superficial.
- · Consultar a especialistas que conozcan recursos especializados.
- · Buscar en recursos adicionales si no se encuentra el material en la web.
Sherman
y Price (2001a) identifican cuatro tipos de contenidos invisibles en la
web: la web opaca (the opaque web), la web privada (the private web),
la web propietaria (the proprietary web) y la web realmente invisible (the
truly invisible web).
Se compone de archivos que podrían
estar incluidos en los índices de los motores de búsqueda, pero no lo están por
alguna de estas razones:
- Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
- Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
- Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
- · URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.
Consiste en las páginas web que
podrían estar indizadas en los motores de búsqueda pero son excluidas
deliberadamente por alguna de estas causas:
- Las páginas están protegidas por contraseñas (passwords).
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
Incluye aquellas páginas en las que
es necesario registrarse para tener acceso al contenido, ya sea de forma
gratuita o pagada. Se dice que al menos 95% de la web profunda contiene
información de acceso público y gratuito (Turner, 2003)
Se compone de páginas que no pueden
ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
- Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
- Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
- Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.
Herramientas de búsqueda en la web profunda
En general, los buscadores han
mejorado su desempeño en los últimos años, permitiendo un mayor nivel de
precisión en las búsquedas y ofreciendo los resultados en formas cada vez más
convenientes para el usuario.
Pero por ahora, los buscadores
comunes sólo pueden recuperar directamente la información que se encuentra
disponible en la web y no aquella que se ofrece a través de la
web.
Desde que se empezó a hablar de la
web invisible los buscadores comunes han añadido funcionalidades adicionales
para la búsqueda en la llamada web profunda y han surgido buscadores
especializados en ese segmento de la web. Estos últimos permiten la búsqueda
directa de artículos y documentos en texto completo y recuperan archivos PDF o
PostScript.
Como hemos visto, los metabuscadores
pueden presentar limitaciones respecto a las posibilidades de búsqueda de cada
buscador por separado. Por ejemplo, cuando la búsqueda es sobre materiales o
formatos especiales, resulta más práctico sacar provecho de las opciones
avanzadas de búsqueda de los buscadores y, si es necesario, realizar búsquedas
sucesivas en varios de ellos. En este sentido, son más recomendables los
directorios concentradores de buscadores.
La mayoría de los mecanismos que se
usan para localizar recursos en la web profunda consisten en directorios de
recursos especializados, principalmente bases de datos disponibles de forma
gratuita en la red. El patrocinio de las instituciones académicas en la
elaboración de los directorios, particularmente de los que son anotados,
garantiza la cobertura y calidad de los recursos compilados.
Las guías de recursos especializados
generalmente están elaboradas por bibliotecarios y son una excelente
herramienta de búsqueda y localización de recursos, además de constituir un
buen instrumento de aprendizaje en el uso de la información.
Finalmente, los recientes motores de pregunta dirigida (directed
query engines) tienen la capacidad de realizar búsquedas simultáneas en varias
bases de datos en la web. Lexibot y su sucesor, Deep Query
Manager, así como Distributed Explorer (Warnick y
otros, 2001) y FeedPoint,
son ejemplos de estos motores avanzados de búsqueda.
Además de las estrategias ya
señaladas para la búsqueda en la web, podemos añadir otras específicas para la
búsqueda en la web profunda o invisible, agrupadas en rubros orientativos.
- Usar las herramientas de búsqueda en la web profunda si buscamos información académica de calidad.
- Usar buscadores regionales especializados para localizar información originada fuera de los Estados Unidos o en idiomas diferentes al inglés.
- Usar metabuscadores para realizar búsquedas en varios buscadores especializados a la vez.
- Usar las opciones avanzadas de los buscadores para localizar imágenes o archivos PDF o PostScript.
- Usar directorios concentradores de buscadores para realizar búsquedas avanzadas sucesivas en varios de ellos.
- Usar directorios anotados para evaluar si los recursos disponibles en la web profunda son útiles para la búsqueda que estamos realizando.
- Usar directorios de bases de datos para conocer cuáles de ellas pueden ofrecernos información útil para nuestras búsquedas.
- Usar guías, directorios o motores avanzados si la información que buscamos puede estar en una base de datos.
Recurso
|
Tipo
|
Guía
|
|
Directorio
|
|
Directorio de buscadores
|
|
Directorio de buscadores
|
|
Directorio
|
|
Metabuscador
|
|
Directorio de buscadores
|
|
Directorio
|
|
Deep Query Manager
(sustituye a Lexibot)
|
Motor avanzado
|
Directorio
|
|
Metabuscador
|
|
Motor avanzado
|
|
Metabuscador
|
|
Directorio
|
|
Directorio
|
|
Directorio
|
|
Directorio
|
|
Directorio
|
|
Directorio
|
|
Directorio
|
|
Metabuscador
|
|
Directorio
|
|
Guía
|
|
Directorio
|
|
Metabuscador
|
|
Directorio
|
|
Buscador
|
|
Directorio anotado
|
|
Buscador
|
|
Metabuscador
|
|
Motor avanzado
|
|
Motor avanzado
|
|
Directorio de bases de datos
|
|
Directorio
|
|
Buscador
|
|
Directorio
|
VÍDEO RELACIONADO