martes, 1 de marzo de 2016

Web superficial y web profunda

 Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.


¿Cómo se diferencian?

Bueno, la Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).

En contraste a la web visible, la Web invisible comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.

NOTA: Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

DATO: Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.


Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:
  • la Web opaca
  • la Web privada
  • la Web propietaria
  • y la Web realmente invisible

La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Extensión de la indización
  • Frecuencia de la indización
  • Limitación del Número máximo de resultados visibles
  • URL’s desconectadas

La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

NOTA: Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.
La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.


La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales.

Para tener en cuenta:
  • algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
  • es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
  • existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
  • el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
  • el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
  • es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.


Recursos de búsqueda en la Web profunda por tipo de recurso:

Buscadores
Scirus, WebSearch.

Metabuscadores
iBoogie, Fazzle, Ixquick, Search.Com

Directorios de buscadores
AlphaSearch

Directorios
CompletePlanet, Direct Search, HotSheet, IncyWincy, InternetInvisible, Librarians Index, Master Link List On the Internet, RefDesk.com, Webfile.com, Where to Do Research

Directorios anotados
AcademicInfo, Resource Discovery Network

Directorios de bases de datos
WebData.com

Guías
About, LibrarySpot

Motores avanzados
Deep Query Manager (sustituye a Lexibot), FeedPoint, Search4science, Strategic Finder

martes, 16 de febrero de 2016

HERRAMIENTAS DE BÚSQUEDA: MURAL

Hola de nuevo
En esta ocasión vamos a explorar diferentes herramientas para conseguier que nuestra búsqueda en la red sea lo más afinada y eficiente posible. Para ello, y siguiendo con la propuesta del curso Encontrando Tesoros en la Red de MiriadaX, vamos a utilizar como entrada de este blog un mural interactivo en el que veremos con más detenimientos las diferentes opciones para mejorar nuestras habilidades de búsqueda así como sus ejemplos respectivos. A continuación el enlace al mural.
Saludos.


domingo, 7 de febrero de 2016

INFOXICACIÓN

El término infoxicación se refiere a la conjunción de las palabras información e intoxicación, introducido por Alfons Cornellá en 1996, aunque cuenta con el precedente information overload (sobrecarga informativa) que empleó Alvin Toffler en su libro Future Shock de 1970.
Básicamente, es un fenómeno de sobreinformación propiciado por las nuevas tecnologías con las que, paradójicamente, resolvemos nuestra natural sed de conocimiento pero que puede acabar invalidando tal proposito si no se es capaz de aprender a manejar y canalizar la información hacia un fin definido.
Es un proceso que puede acabar en un continuo examen de volumen de contenidos de todo tipo, saltando de un recurso a otro sin concierto alguno: acabar primando la cantidad sobre la calidad, confundiendo la mayor acumulación de datos posible con información real y sin contar con apenas discriminación de contenidos.
El principal problema es que demasiada información afecta a nuestra capacidad para comprender, convirtiéndonos en simples lectores pasivos que no llegan a alcanzar un conocimiento suficientemente sólido y válido. También tiende a minimizarse el necesario aspecto crítico, ya que el continuo caudal de información hace imposible su estructuración en un cuerpo coherente acorde a un objetivo predefinido.
Afortunadamente podemos acabar con tal proceso si aprendemos, primero de todo, a reconocer cuando estamos en un bucle de infoxicación. Para ello es fundamental darse cuenta de que estamos siendo incapaces de manejar toda la información al alcance y de que lo hacemos de una manera acrítica, casi mecánicamente, sin ningún fin que oriente su estructuración o simplemente asimilandola.
Contamos con herramientas para solventar este problema como son una serie de filtros, tanto personales como tecnológicos.
 - Entre los primeros se encuentran el aprender a seleccionar la información que nos puede ser útil, esa información crítica necesaria para resolver una serie de temas principales y secundarios definidos por nosotros mismos. De esta manera, al contar con unos puntos de partida podemos identificar con facilidad aquella información útil e interesante que les da respuesta, obviando esa otra que puede producir dispersiones.
 - En el caso de los segundos, estas se encuentran como recursos dentro de las propias plataformas de busqueda de información, como pueden ser agregadores de canales RSS, herramientas de curación de contenidos, rastreadores de información, etc.









https://es.wikipedia.org/wiki/Sobrecarga_informativa
http://alfonscornella.com/thought/infoxicacion/
http://papelesdeinteligencia.com/que-es-la-infoxicacion/

sábado, 6 de febrero de 2016

Campo de pruebas

Hola
Bienvenidos a este mi pequeño campo de pruebas en el mundo de los bloggs. Este será un blog de pruebas por lo que prefiero omitir información como la personal o intereses, ya que no tiene mucho sentido hacerlo. Solo pretendo "trastear" con este y adquirir algo de experiencia. Sirva como sustitutivo esta declaración.
Espero sacarle partido a este mundillo en algún momento con la creación de un blog dedicado, esta vez sí, que incluso barajo que sea como software instalado en web tipo wordpress.
Ciao