miércoles, 21 de octubre de 2015

Web Superficial y Web Profunda

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.


Internet superficial

La Internet superficial (surface web) es la porción de Internet indexada en los motores de búsqueda, a través de sus arañas o spider. Estas arañas son programas que ejecutan la función de buscar, clasificar e indexar los contenidos web, almacenando la información en bases de datos. Cualquier enlace que encuentren los spider es seguido e indexado a su vez, por lo que eventualmente todas las páginas web enlazadas mediante hipervínculos serán en un momento u otro indexadas.

Por diferentes motivos, como enlaces generados por JavaScript y Flash, sitios protegidos con clave o ficheros excluidos mediante robots.txt, una gran parte del contenido de la web no puede ser capturada por los buscadores, lo que impide a los buscadores indexarlas. Estas páginas forman la denomina Internet profunda, que se estima constituye el 95% de los contenidos web.

Las características principales de los sitios de la Web visible son:
  •       su información no está contenida en bases de datos
  •              es de libre acceso
  •            no requiere la realización de un proceso de registro para acceder

Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

Internet profunda

La Internet profunda o invisible (deep web, invisible web, hidden web) es la porción de Internet cuyos contenidos no pueden ser indexados por los motores de búsqueda, y se estima que representa en torno al 95% de los contenidos web, de tal manera que la Internet profunda es varios órdenes de magnitud más grande que la Internet superficial.

La Internet profunda está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:
     ·         Contenido privado protegido con contraseña.
     ·         Documentos en formatos no indexables.
     ·         Enlaces generados mediante JavaScript o Flash.
     ·         Contenidos que usan protocolos diferentes a HTTP o HTTPS.
     ·         Contenidos no enlazados.
     ·         Contenido que varía según el dispositivo que accede.
     ·         Contenido dinámico generado como respuesta a un formulario.
     ·         Restricciones de acceso a documentos mediante robots.txt o captchas.
     ·         Información a la que sólo se puede acceder consultando bases de datos.

Caracterización de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca:


Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

   ·         Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
    ·         Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
    ·         Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
     ·         URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.

Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.

La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.

El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.

Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.



La Web privada:

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

      ·         Las páginas están protegidas por contraseñas (passwords).
      ·         Contienen un archivo “robots.txt” para evitar ser indizadas.
    ·     Contienen un campo “noindex” para evitar que el buscador índice la parte correspondiente al cuerpo de la página.

Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento

La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.



La Web realmente invisible:


Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
   ·         Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
    ·         Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
     ·         Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
     ·         Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.


Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentan ahora la posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo son posibles porque se realiza una catalogación textual de éstos. Las búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio por el cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. 

Esto implica, desde luego un proceso manual. Hoy por hoy, los métodos bibliotecarios tradicionales resultan ser los más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. Realizar una búsqueda del tipo “quiero fotografías de personas que se parezcan a Woody Allen” sólo es posible si hay un especialista que clasifique las imágenes para distinguir si se trata de dibujos o fotografías, si éstas son de personas, y además incluya la información acerca de los parecidos. Las maquinarias actuales de búsqueda son extraordinariamente eficaces para recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. 

Por lo mismo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitado. Una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.jpg, por ejemplo).

miércoles, 14 de octubre de 2015

Búsqueda por palabras claves


La búsqueda avanzada te permite restringir los resultados web de búsquedas complejas. Para ello utilizaremos principalmente los operadores lógicos o booleanos (AND, OR, NOT), ademas podremos utilizar otro tipo de operadores como el * y operadores de redes sociales (@) y tendencias (#), tenemos también palabras que nos permiten delimitar las búsquedas como define, link, related y podemos realizar búsquedas avanzadas mediante las opciones de búsqueda de los navegadores.

Por ejemplo, puedes encontrar sitios que se hayan actualizado en las últimas 24 horas o imágenes en blanco y negro.

lunes, 5 de octubre de 2015

Las mejores herramientas


¿Estamos Infoxicados?

La infoxicación es un término desconocido por muchos pero que seguro muchos la padecen. Este post tiene por objetivo informarnos acerca de esta nueva contaminación, que es un problema que se encuentra y se da en estos tiempos. Causas, consecuencias y posibles soluciones.

En la actualidad (y desde hace ya varios años) gran parte de la población mundial suele tener problemas con la voluntad real de comprenderse entre sí. A esto se le suma la carencia de una cultura común de respeto y la manipulación de sobreabundancia informativa. Todo esto sumado y multiplicado da como resultado un estado alcanzado por las personas que es llamado infoxicación.
Este término hace referencia a la sobrecarga de información por sobre la capacidad humana de analizarla. A lo largo del tiempo las comunicaciones se fueron haciendo cada vez más veloces, de tal manera que hoy en día esta velocidad supera ampliamente nuestra capacidad de procesarla.
¿De dónde surge el término?
Se denomina sobrecarga informativa, infoxicación o infobesidad a un concepto generalmente usado en conjunto con varias formas de comunicación por computadora tales como el correo electrónico. Se refiere al estado de contar con demasiada información para tomar una decisión o permanecer informado sobre un determinado tema. El término (del inglés information overload) fue acuñado en 1970 por Alvin Toffler en su libro Future Shock(Wikipedia, 2013)
¿Quién introdujo el término y a qué concepto refiere?
El concepto de infoxicación como tal fue acuñado por primera vez por Alfons Cornella, Fundador y presidente de Infonomía, para aludir a la sobresaturación de información, como acrónimo de intoxicación por información. De esta forma para principios de este siglo ya existía un concepto para definir los síntomas de lo que empezábamos a vivir como un fenómeno global y que fue impulsado primero por Google y las redes sociales después. Para seguir ampliándose con la Internet de las cosas(Oroz, 2013).
¿Cómo puede la sobreabundancia de información afectar nuestro rendimiento?
Puede repercutir en 5 procesos fundamentales, los cuales conllevan finalmente a la baja de productividad del individuo.(Secanella, 2013)
# 1. Saturación mental y estrés.
Recibir una cantidad desmesurada y variada de información produce fatiga mental. Si admitimos para procesar -aunque sólo sea momentáneamente- cualquier información que aparezca, el nivel de saturación mental puede llegar a límites insanos.
Muy ligado a la saturación mental está el estrés. Ante la saturación de información, tu cerebro pone en marcha este mecanismo, y si no encuentra un descenso del nivel de demanda no lo desactivará. Esta activación lleva al agotamiento, tanto físico como mental.
# 2. Ansiedad
El propio estrés ya favorece la activación de respuestas de ansiedad, por lo que nos hace más vulnerables a ella. Algunos de los elementos que favorecen la ansiedad son:
·       La sensación de que quizá no se está consultando la información necesaria.
·       Se está invirtiendo mucho tiempo en documentarse.
·       Las horas no están siendo productivas. Etc.
Por tanto, el no tener un plan inteligente de gestión de la información favorece claramente estos patrones mentales.
# 3. Falta de concentración
El absorber indiscriminadamente todo tipo de información que recibes te puede llevar a tener serios problemas con tu capacidad de atención.
# 4. Pérdida de la memoria reciente
La memoria reciente o memoria de trabajo es aquella que está accesible durante un breve período de tiempo (segundos o minutos) y que dependerá del nivel de atención que le otorgues a la tarea o a la información en la que estés enfocado. Al final, al no centrarse en una cantidad menor y más seleccionada de información, ésta no se procesa adecuadamente, en el sentido de que no se utiliza con la calidad que seguramente te gustaría para determinados objetivos.
# 5. Sesgo cognitivo
Éste es un problema muy sutil y poco reconocido en la actualidad. Como somos conscientes de que tenemos fácil acceso a cualquier tipo de información, caemos en el autoengaño de creernos que somos mucho más libres para crearnos opiniones y tomar decisiones mucho más contrastadas. Nada más lejos de la realidad.
# 6. Falta de productividad
Todos los problemas mencionados hasta ahora conllevan el resultado de una clara falta de productividad. Muchas veces se vende la idea de que la productividad tiene que ver básicamente con utilizar algún sistema de agenda, pero en realidad es mucho más: tiene que ver con un plan de trabajo bien definido en base a prioridades y con una serie de hábitos relacionados con la comunicación, el autocontrol y la higiene mental.
 ¿Cómo podríamos conseguir una mejora en nuestra productividad personal?
Antes de nada tenemos que definir claramente los cinco temas fundamentales además de otros cinco temas secundarios, de esta forma ya tendríamos más centrados nuestros objetivos(Errante, 2015).
Según Cornella, tendríamos que tener filtros adecuados para separar esa información en tres grupos:
·       información fatal, que es aquella información que no nos interesa en absoluto porque no tiene nada que ver con los temas que tratamos
·       información interesante, que es aquella que, en algún momento puede interesarnos
·       información realmente útil que es la que realmente necesitamos


Errante, E. m. (2015). Descifrando Mentis. Retrieved 5 de Octubre de 2015 from http://descifrandomentis.blogspot.mx/2015/06/infoxicacion.html

Oroz, I. (2013). Papeles de Inteligencia. Retrieved 5 de Octubre de 2015 from http://papelesdeinteligencia.com/que-es-la-infoxicacion/

Secanella, J. (2013). Socialancer. Retrieved 5 de Octubre de 2015 from http://www.socialancer.com/wp-content/uploads/2013/09/ebook-infoxicacion-CM.pdf


Wikipedia. (2013). Wikipedia. Retrieved 5 de 10 de 2015 from https://es.wikipedia.org/wiki/Sobrecarga_informativa

domingo, 4 de octubre de 2015

Hola a todos, mi nombre es José Vicente y soy Mexicano, cree este Blog con la finalidad de realizar un portafolio de evidencias para el curso de Encontrando tesoros en la red (2ª edición).

Saludos