Los motores de búsqueda
tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de
lo que existe online, lo que se ha comenzado a llamar la web superficial o
visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado
en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de
sitios que demandan un login (aunque sean gratuitos), entre otros tipos de
formas de almacenamiento de contenido que no aparecen entre los resultados de
una búsqueda convencional.
Internet superficial
La Internet superficial (surface
web) es la porción de Internet indexada en los motores de búsqueda, a través de
sus arañas o spider. Estas arañas son programas que ejecutan la función de
buscar, clasificar e indexar los contenidos web, almacenando la información en
bases de datos. Cualquier enlace que encuentren los spider es seguido e
indexado a su vez, por lo que eventualmente todas las páginas web enlazadas
mediante hipervínculos serán en un momento u otro indexadas.
Por diferentes motivos, como
enlaces generados por JavaScript y Flash, sitios protegidos con clave o
ficheros excluidos mediante robots.txt, una gran parte del contenido de la web
no puede ser capturada por los buscadores, lo que impide a los buscadores
indexarlas. Estas páginas forman la denomina Internet profunda, que se estima
constituye el 95% de los contenidos web.
Las características principales de los sitios de la Web visible son:
- su información no está contenida en bases de datos
- es de libre acceso
- no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por
páginas Web estáticas, es decir páginas o archivos con una URL fija y
accesibles desde otro enlace.
Internet profunda
La Internet profunda o invisible
(deep web, invisible web, hidden web) es la porción de Internet cuyos
contenidos no pueden ser indexados por los motores de búsqueda, y se estima que
representa en torno al 95% de los contenidos web, de tal manera que la Internet
profunda es varios órdenes de magnitud más grande que la Internet superficial.
La Internet profunda está
compuesta por aquellos sitios web a los que no pueden acceder los motores de
búsqueda, por diversos motivos como:
·
Contenido privado protegido con contraseña.
·
Documentos en formatos no indexables.
·
Enlaces generados mediante JavaScript o Flash.
·
Contenidos que usan protocolos diferentes a HTTP
o HTTPS.
·
Contenidos no enlazados.
·
Contenido que varía según el dispositivo que
accede.
·
Contenido dinámico generado como respuesta a un
formulario.
·
Restricciones de acceso a documentos mediante
robots.txt o captchas.
·
Información a la que sólo se puede acceder
consultando bases de datos.
Caracterización de la Web invisible o profunda
Sherman y Price (2001)
identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the
opaque Web), la Web privada (the private Web), la Web propietaria (the
proprietary Web) y la Web realmente invisible (the truly invisible Web).
La Web opaca:
Se compone de archivos que
podrían estar incluidos en los índices de los motores de búsqueda, pero no lo
están por alguna de estas razones:
·
Extensión de la indización: por economía, no
todas las páginas de un sitio son indizadas en los buscadores.
·
Frecuencia de la indización: los motores de
búsqueda no tienen la capacidad de indizar todas las páginas existentes;
diariamente se añaden, modifican o desaparecen muchas y la indización no se
realiza al mismo ritmo.
·
Número máximo de resultados visibles: aunque los
motores de búsqueda arrojan a veces un gran número de resultados de búsqueda,
generalmente limitan el número de documentos que se muestran (entre 200 y 1000
documentos).
·
URL’s desconectadas: las generaciones más
recientes de buscadores, como Google, presentan los documentos por relevancia
basada en el número de veces que aparecen referenciados o ligados en otros. Si
un documento no tiene un link desde otro documento será imposible que la página
sea descubierta, pues no habrá sido indizada.
No cabe duda de que los actuales
buscadores y directorios de la web están mejorando su funcionamiento. Más allá
de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas
maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas.
A medida que estas herramientas se vayan haciendo más poderosas disminuirá la
necesidad de la elaboración manual de guías o concentradores de recursos y
quizás más la de orientación en las estrategias de búsqueda y en el uso y
aprovechamiento de los recursos localizados.
Un observador cuidadoso puede
apreciar que persiste la práctica de los robots de no indizar todas las páginas
de un sitio, fijándose en los resultados de las búsquedas que arrojan las
diferentes herramientas. Por ejemplo, se puede tener la referencia de una base
de datos, disponible a través de un sitio web, en una de las páginas del sitio
que contiene un link a ella, y no aparecer, en cambio, la referencia a la
página de acceso directo a la base de datos en ese sitio.
La frecuencia de la indización
puede haber aumentado en algunos buscadores, o incluso hacerse de forma
diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza,
varían más (por ejemplo, la información bursátil) serían visitadas más
frecuentemente por los robots que aquellas que tienden a ser más estables en su
contenido.
El número máximo de resultados
visibles no es un problema cuando los buscadores presentan los resultados ordenados
por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a
la búsqueda realizada. En la medida en que se pueda realizar una búsqueda
avanzada y los criterios de relevancia combinen el número de ligas con la
frecuencia de palabras, la presentación de los resultados no constituirá un
obstáculo para encontrar la información. El usuario siempre debe tener en
cuenta que los buscadores son más apropiados cuando la búsqueda es específica,
es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado
realizar búsquedas temáticas en los directorios.
Los URLs desconectados podrían
evitarse si existiera la obligación de registrar, aunque fuera de forma muy
sencilla, toda página que se colgara en la web. Pero dada la gran descentralización
de Internet, esto no parece vislumbrarse en un futuro inmediato.
La Web privada:
Consiste en las páginas web que
podrían estar indizadas en los motores de búsqueda pero son excluidas
deliberadamente por alguna de estas causas:
·
Las páginas están protegidas por contraseñas
(passwords).
·
Contienen un archivo “robots.txt” para evitar
ser indizadas.
· Contienen un campo “noindex” para evitar que el
buscador índice la parte correspondiente al cuerpo de la página.
Este segmento de la web no
representa una gran pérdida en términos de valor de la información que
contiene, ya que se trata, en general, de documentos excluidos deliberadamente
por su falta de utilidad. En cualquier caso, son los dueños de la información
los que deciden no hacerla disponible, por lo que difícilmente se podrán
encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos
robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que
les hagan entrar en procesos circulares interminables, mermando así la
eficiencia en su funcionamiento
La Web propietaria:
Incluye aquellas páginas en las
que es necesario registrarse para tener acceso al contenido, ya sea de forma
gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene
información de acceso público y gratuito.
La Web realmente invisible:
Se compone de páginas que no
pueden ser indizadas por limitaciones técnicas de los buscadores, como las
siguientes:
·
Páginas web que incluyen formatos como PDF,
PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
·
Páginas generadas dinámicamente, es decir, que
se generan a partir de datos que introduce el usuario.
·
Información almacenada en bases de datos
relacionales, que no puede ser extraída a menos que se realice una petición
específica.
·
Otra dificultad consiste en la variable
estructura y diseño de las bases de datos, así como en los diferentes
procedimientos de búsqueda.
Algunos buscadores tradicionales
como Altavista o Google han evolucionado y presentan ahora la posibilidad de
realizar búsquedas por materiales o formatos especiales, como imágenes, audio y
vídeo son posibles porque se realiza una catalogación textual de éstos. Las
búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar
porque existen directorios de estos archivos. Así, el principal medio por el
cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos
recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese
modo en la base de datos.
Esto implica, desde luego un proceso manual. Hoy por
hoy, los métodos bibliotecarios tradicionales resultan ser los más eficaces en
la búsqueda de información, al menos mientras la inteligencia artificial no
avance más. Realizar una búsqueda del tipo “quiero fotografías de personas que
se parezcan a Woody Allen” sólo es posible si hay un especialista que
clasifique las imágenes para distinguir si se trata de dibujos o fotografías,
si éstas son de personas, y además incluya la información acerca de los
parecidos. Las maquinarias actuales de búsqueda son extraordinariamente
eficaces para recuperar información textual, pero esto no excluye la necesidad
de la catalogación y clasificación de los recursos.
Por lo mismo, el número de
archivos de este tipo que se pueden recuperar con los buscadores actuales tiene
que ser limitado. Una página web que contiene una imagen, sin mayor información
textual acerca de su contenido, no podrá ser recuperada automáticamente más que
por su extensión (.jpg, por ejemplo).