Universidad Nacional de Luján. Departamento de Ciencias Básicas. Teleinformática y Redes MOTORES DE CONSULTA. Laura Carolina Mamani. Legajo Nro.

(1)

Universidad Nacional de Luján Departamento de Ciencias Básicas

Teleinformática y Redes

MOTORES DE CONSULTA

Laura Carolina Mamani Legajo Nro. 53190 [email protected]

Resumen

Este trabajo se dedica a los llamados "buscadores". Se definen las funciones básicas que deben realizar, y características generales que reúne un buscador.

La idea principal es saber las distintas posibilidades de los buscadores, y establecer una comparación entre las características de cada uno.

Introducción

Sin lugar a dudas, la Word Wide Web (www) es una de las herramientas más utilizada de Internet. Desde su creación en 1989 se estima su crecimiento en un 3000 % anual.

El continuo crecimiento de la información que se encuentra disponible en Internet y el incremento de nuevos usuarios, hace necesario mejorar los mecanismos de búsqueda y aprovechar al máximo las posibilidades que ofrece Internet. Para esto es necesario conocer cómo funcionan los buscadores como herramienta básica.

1. Motores de búsqueda: definición y funcionamiento

Las principales herramientas de búsqueda son los denominados motores de búsqueda (search engines). Un motor de búsqueda se podría definir de forma muy simple, como una herramienta que basa su funcionamiento en palabras clave que tienen el objetivo de realizar búsquedas dentro de una base de datos.

Los documentos que se pueden encontrar después de realizar una búsqueda se pueden haber agrupado de forma manual o mediante un robot.

Un robot, según el WWW Robots FAQ, es un programa que de manera automática atraviesa la

estructura de documentos Web extrayendo un documento y a partir de éste extrayendo recursivamente todos los documentos que están referenciados por enlaces, es por este motivo que también es conocido

(2)

Los documentos son introducidos en una base de datos e indexados para su posterior localización por el motor de búsqueda.

El criterio para seleccionar las páginas que visita un robot depende de cada robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL's.

También depende del robot, qué indexar pero generalmente usa los títulos de la página HTML (Titles) o los primeros párrafos, o selecciona la página HTML completa e indexa las palabras contenidas,

excluyendo las de uso común (pronombres, adverbios y palabras como "web", "página", etc), algunos seleccionan las meta etiquetas.

En el caso de ser visitado por un robot, las estadísticas de las páginas muestran una misma dirección IP que accede en unos pocos segundos a todas las páginas de la web, cosa que no puede hacerse

manualmente.

Cuando un robot entra en un servidor, busca un archivo llamado robots.txt, en el que se le indican los directorios permitidos y los prohibidos. Si este archivo no existe, considera todos permitidos.

Teniendo en cuenta lo anteriormente mencionado, el camino más rápido para evitar que un robot escanee un sitio es crear el archivo robot.txt con las siguientes dos líneas y ponerlo en el servidor.

User-agent: * Disallow: /

Si no tenemos acceso completo al servidor, simplemente podemos incluir las siguientes líneas (tags o etiquetas) en la página web para que no sea indexada:

<META name="ROBOTS" content="NOINDEX">

Y si queremos que los links no sean indexados por el robot debemos incluir: <META name="ROBOTS" content="NOFOLLOW">

El funcionamiento:

El motor de búsqueda recibe la consulta/interrogación (también conocida como query) del usuario, formada por una o más palabras, realiza la consulta a la base de datos y ofrece un listado ordenado de documentos que cumplen parte o el total de los requisitos de interrogación.

El orden de los documentos ofrecidos está de acuerdo con una puntuación (score) que asocia el programa a cada documento cuando realiza la consulta y que varía en cada caso. De esta manera, cuanto más alta sea la puntuación más exacto es el resultado.

Estrategias de búsqueda:

Para realizar cualquier consulta es básico conocer el lenguaje de interrogación o de búsqueda (query language). Éste está formado por diferentes tipos de operadores:

Los operadores lógicos son los descritos en la lógica y la teoría de conjuntos sistematizados de Boole, más conocidos como "álgebra de Boole". Las operaciones más conocidas que se pueden realizar son tres:.

(3)

_Suma o unión (and, +, &): Encontrar documentos que contengan todas las palabras.

_Producto lógico o intersección (or, |): Encontrar documentos que contengan alguna de las palabras.

_Exclusión (no, -,NOT, !): Encontrar documentos que excluyan la palabra o frase

especificada: ej: ftp &! web, encuentra documentos con ftp pero no contendrán la palabra web. No se permite usarlo si no es acompañado de otro operador como por ejemplo AND.

Arquitectura:

En algunos motores de búsqueda el análisis de las páginas web se lleva a cabo por medio de diversos procesos distribuidos.

Hay un URL Server que envía listas de direcciones (URLs) para ser analizadas por los robots (Crawlers). Estas páginas una vez analizadas, son enviadas al servidor de almacenamiento. Este servidor se encarga de comprimir las páginas web y almacenarlas en un "depósito".

Cada página web tiene asociado un número de identificación (ID number) denominado "docID", que es asignado cada vez que un nuevo URL es interpretado desde una página.

La función de indexación es llevada a cabo por el indexador y el clasificador (sorter). El indexador lee las páginas web procedentes del depósito, descomprime los documentos y los analiza. Cada documento se convierte en un conjunto de palabras, que van a denominarse "hits", donde guarda la palabra, posición en el documento y una aproximación de su tamaño de fuente.

El indexador distribuye estos hits en un conjunto de denominados "barriles", creando un índice parcialmente ordenado.

El indexador lleva a cabo otra función, analizar los enlaces incluidos en cada página web y almacena la información importante acerca de ellos en archivos de enlace conocidos como "anchors". Este archivo contiene suficiente información para determinar hacia donde apunta cada enlace y el texto de cada uno de ellos.

(4)

Otro componente llamado URL Resolver lee del archivo que contiene información de los enlaces (anchors) y convierte URLs relativas en URLs absolutas (por ejemplo si el enlace es desde

http://foo.bar/index.htm hacia images/bar.gif la URL absoluta es http://foo.bar/images/bar.gif). Luego convierte las URLs absolutas en DocsIDs.

Pasa el texto del enlace al índice y los asocia con el docID apuntado por el enlace. También genera una base de enlaces que son simplemente pares de docIDs de la forma "desde-hasta". (Esta base de datos de enlaces es usada para calcular el grado de calidad de cada pagina: algoritmo de PageRanking)

(5)

El clasificador (sorter) toma de los "barriles", hits ordenados por DocsID y los reordena por palabra para generar otro indice invertido. El clasificador produce también una lista de wordIDs. Un programa

llamado DumpLexicon toma esto junto con la lista de palabras producidas por el indexador y genera un nuevo léxico a ser usado por el buscador. El buscador es ejecutado por un web Server y usa la lista de palabras construidas por DumpLexicon para responder queries [4].

2. Descripción y análisis de los motores de búsqueda seleccionados 1. AltaVista http://www.altavista.com.

Es un Motor de Búsqueda de origen internacional que posee versiones regionales para los diferentes idiomas.

Las páginas son recogidas por un robot que las indexa.

Formatos de búsqueda: Hay diferencias entre el formato de búsqueda estándar, (el que aparece en la caja de búsqueda de la página principal) y el formato de búsqueda avanzado.

La búsqueda de imágenes no es posible desde el formato estándar.

Los operadores + y - no están disponibles desde el formato avanzado. En lugar de ellos puede usar los operadores booleanos.

Expresiones de búsqueda: Se pueden crear relaciones específicas entre palabras clave o frases usando paréntesis ( ) con los operadores boléanos (And, Or, Not).

Podemos utilizar los paréntesis para completar las frases booleanas. Ej: (ftp & web)AND(ftp & Server) permite hallar ambas condiciones. [7]

Modo de operación: El modo en que el robot de Altavista ordena las páginas resultantes de una búsqueda, depende básicamente de varios factores:

Existencia de las palabras clave en la meta etiqueta keywords.

●

Existencia de las palabras clave en la página y proximidad entre sí.

●

Popularidad (Contabilizando los enlaces)

●

2. Yahoo! http://www.yahoo.com

Es un índice jerárquico de Internet, en el que se puede "navegar" o realizar búsquedas. Las entradas son clasificadas e introducidas manualmente, aunque sus enlaces son recopilados tanto por las peticiones particulares como por la ayuda de robots que buscan en listas de recursos nuevos. Está dividido en catorce áreas temáticas que a su vez se subdividen en otras jerárquicamente inferiores.

Formatos de búsqueda

Para obtener información sobre un tema en concreto existen dos posibilidades: consultar el índice

temático o utilizar la opción Search. La primera opción puede resultar muy lenta, ya que sucesivamente se subdespliegan menús y es mejor, por lo tanto, la segunda opción. Search es un mando que permite realizar búsquedas en toda la base de datos, o sólo en un área jerárquica concreta. El lenguaje de interrogación es muy simple porque sólo permite realizar consultas por una palabra, o mediante el

(6)

operador booleano AND. Para poder acotar la consulta es necesario visualizar las opciones disponibles en el menú Options.

Las búsquedas de Yahoo! recuperan dos tipos de información distinta: las categorías que coinciden con las palabras clave indicadas. 1.

las páginas web que coinciden con las palabras clave. 2.

Google http://www.google.com 3.

Es un Buscador con robot que indexa páginas en todo Internet, sin diferenciaciones, actualmente trabaja en los siguientes idiomas: Alemán, Chino (simplificado), Chino (tradicional), Coreano, Danés, Español, Finlandés, Francés, Holandés, Inglés Italiano, Japonés, Noruego, Portugués, Sueco

Presta sus servicios de buscador a Yahoo y se actualiza con mucha regularidad.

Formato de búsqueda: Sólo devuelve páginas que incluyen todos los términos que escribimos, esto es porque agrega automáticamente "and" entre las palabras que escribamos, y no admite búsquedas "or". No sólo los resultados contienen todos los términos de búsqueda, sino que éste también analiza la proximidad de esos términos dentro de una página. A diferencia de muchos otros motores de búsqueda, da prioridad a los resultados según la proximidad de los términos de búsqueda.

Tiene instalado un botón denominado "Me siento afortunadoTM", que lleva directamente al sitio Web del primer resultado de búsqueda.

Almacena páginas Web en su memoria caché con el fin de recuperarlas para los usuarios como una copia de seguridad, en caso de que el servidor de la página falle temporalmente. Si el servidor no está

disponible, la memoria caché de la página que necesitamos puede ser una salvación. Con frecuencia, este material en caché puede ser mucho más rápido que seguir el vínculo normal, aunque la información que recibamos puede estar menos actualizada. Sin embargo, en muchos casos, nos evitaría los mensajes "Error 404 no encontrado"

Algunas veces, una búsqueda está en el área correcta, pero entrega demasiados resultados. Permite

realizar una nueva búsqueda que sólo considere las direcciones URL devueltas por la primera consulta de búsqueda. Esto con frecuencia se denomina "limitar una búsqueda" o "buscar en los resultados de la búsqueda actual."

También podemos excluir una palabra colocando un signo menos ("-") inmediatamente delante del término que deseamos evitar. (Hay que asegurarse de incluir un espacio antes del signo menos).

No admite búsquedas con "comodín". Es decir, busca las palabras exactas que escribimos en el cuadro de búsqueda. La búsqueda de "googl" o "googl*" no entregará "googler" ni "googlin."

Las búsquedas no distinguen mayúsculas de minúsculas. Todas las letras, sin importar cómo las escriba, se considerarán minúsculas. Por ejemplo, las búsquedas de "fernando de la rua ", "Fernando de la Rua" y "FerNANDo de La RUA" devolverán los mismos resultados.

Podemos buscar frases agregando comillas. Las palabras entre comillas dobles aparecerán juntas en todos los documentos devueltos (a menos que sean palabras vacías, palabras comunes especiales que requieren un signo "+").

(7)

Ciertos caracteres sirven como conectores de frases. Son considerados conectores: guiones, barras, puntos, signos igual y apóstrofes. Los conectores de frases funcionan como comillas.

Ignora las palabras y caracteres comunes, conocidos como palabras vacías. Automáticamente no

considera términos como "http" y "com," al igual que ciertos dígitos únicos y letras únicas, porque estos términos rara vez ayudan a limitar una búsqueda y pueden disminuir significativamente la velocidad de ésta.

Debemos usar el signo "+" para incluir palabras vacías en la búsqueda. Tenemos que asegurarnos de incluir un espacio antes del signo "+". También podemos incluir el signo "+" en las búsquedas de frases.

4. Hotbot http://hotbot.lycos.com/

Es un Buscador internacional de origen americano. Indexa cada palabra, enlace y archivos multimedia sobre más de 110 millones de documentos web y renueva su base de datos completa cada 3 o 4 semanas. Al ser un robot de búsqueda no posee limitaciones en su temática, puede encontrar e indexar todos los temas solicitados. Formato de búsqueda: Búsqueda simple: 1. Búsqueda inteligente: 2.

Búsqueda avanzada o super búsqueda 3.

1. Búsqueda simple: Los resultados que produce son tan amplios que es recomendable utilizar los otros dos formatos de búsqueda que se detallan a continuación.

2. Búsqueda inteligente: Permite buscar por: 1- Todas las palabras.

2- Alguna de las palabras incluidas. 3- Frase exacta.

4- Título de la página 5- Nombre de personas

6- Enlaces hacia la url solicitada. 7- Operadores booleanos.

Fecha:

1- Cualquier fecha 2- Última semana

3- Dos últimas semanas 4- En el último mes

5- En los últimos dos meses 6- En los últimos seis meses. 7- En el último año.

8- En los últimos dos años. Idioma:

1- Holandés 2- Inglés

(8)

3- Finlandés 4- Francés 5- Alemán 6- Italiano 7- Portugués 8- Español 9- Sueco

Optar por páginas que incluyan: 1- imágenes.

2- mp3. 3- videos. 4- Java Script. Ver los últimos:

10, 25, 50,100 resultados con las descripciones completas, con descripciones breves o solamente visualizar la URL.

3. Búsqueda avanzada o super búsqueda:

A las opciones anteriores se le puede pedir diferentes posibilidades más, como por ejemplo, que realice una búsqueda regional, por dominio, fecha exacta en que fue creado el sitio web y un filtro de palabras que debe o no debe incluir la búsqueda.

Los resultados de las búsquedas en HotBot están basados exclusivamente sobre comparaciones entre las palabras clave ingresadas y el contenido de millones de páginas web.

5. Terra. Ex GauchoNet http://www.terra.com.ar/buscador/

Terra Argentina adquirió el directorio Gauchonet, integrando sus contenidos a su portal y lanzó hace más de un año una batería de nuevos servicios, estableciéndose como portal horizontal, no sólo en Argentina sino en toda América Latina, creando contenidos propios en cada país.

Formato de búsqueda

El buscador no utiliza básicamente operadores booleanos, las búsquedas se realizan mediante palabras clave, ofreciendo los resultados que correspondan a todas las palabras agregadas.

Se omiten las denominadas stopwords, palabras de uso común que no suelen agregar significado, por ejemplo: la, de, en, el, por, y las letras individuales.

Para forzar el uso de una stopword, debe agregarse delante de la misma el símbolo +, sin espacios. Para excluir una palabra en los resultados, se debe utilizar el símbolo -, sin espacios, frente a la palabra que desea sea descartada en los resultados de la búsqueda. En las búsquedas, no se hace distinción entre letras mayúsculas y minúsculas.

Se muestran primero los resultados que concuerden con todas las palabras introducidas, luego los que sólo coincidan con algunas de las buscadas. Ordenándose los títulos alfabéticamente de forma

secundaria.

(9)

Las técnicas de recuperación de información empleadas por los motores de búsqueda en Internet, en un principio, derivaban de las empleadas tradicionalmente en el campo de los S.R.I. (Sistemas de

recuperación de información) y por esto han comenzado a surgir grandes problemas cuando realizamos operaciones de recuperación de información con ellos. Además, en el entorno web surgen algunos

problemas tal como es el caso del fenómeno denominado "spamming", por medio del cual los

desarrolladores de páginas webs introducen en la descripción de las mismas términos que nada tienen que ver con el contenido de las mismas, por ejemplo: "mp3", "sex", "pamela anderson", "microsoft" (términos de uso muy frecuente por los usuarios) y que provocarán que estos usuarios recuperen esas páginas "trucadas" cuando pretenden recuperar documentos de otra temática. Otro problema importante que afecta a la efectividad de estos sistemas reside en el enorme tamaño del índice, que poco a poco llega a alcanzar magnitudes impresionantes.

La mayor parte de los motores emplean el Modelo Conceptual del Espacio Vectorial y muestran sus resultados ordenados según un algortimo de ranking.

Algunos motores de búsqueda hacen uso de la conectividad de la Web para calcular un grado de calidad de cada página, esta graduación se denomina "PageRank".

Pagerank asume que el número de enlaces que una página proporciona tiene mucho que ver con la calidad de la misma, es por ello que este algoritmo se puede resumir de la siguiente manera:

"Si una página A tiene T1....Tn páginas que apuntan a ella por medio de algún enlace (es decir citas). El parámetro d es un factor que se puede fijar entre 0 y 1 (generalmente se fija en 0.85) . Sea C(A) es número de enlaces que salen de la página A. Entonces, el PageRank de la página A vendrá dado por la expresión: PR(A) = (1-d) + d(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))".[4]

Este cálculo puede realizarse por medio de un algoritmo iterativo y corresponde al vector propio de una matriz normalizada de enlaces en la Web. PageRank puede ser pensado como un modelo del

comportamiento del usuario.

Es decir, se trata de un modelo basado en los enlaces de las páginas pero que pretende representar la forma de trabajar de los usuarios. Otra consideración es que una página puede tener un alto coeficiente de PageRank si existen muchas páginas que apuntan a ella, o si hay un número algo menor de páginas que apuntan a ella pero que posean, a su vez, un alto nivel de PageRank. Aquellas páginas muy citadas son páginas que vale la pena consultar y, en cambio, aquellas que sólo posean un enlace son páginas de poco interés para su consulta.

Este algoritmo es el usado por el motor de búsqueda Google, aunque se trata del motor de búsqueda de moda y pasa por ser el más completo de todos los que funcionan hoy en día en la Web, ya encontramos aportes de algunos autores que critican parcialmente el diseño de Google y proponen otros diseños "más eficientes" según su punto de vista. Este es el caso de Zhang y Dong quienes proponen diseñar los

algoritmos de ranking a partir de las siguientes métricas:

Relevancia: métrica empleada por la mayor parte de los motores de búsqueda basados en el modelo del espacio vectorial. Mide la distancia entre el contenido de un recurso web (r) y una pregunta de un usuario cualquiera (q).

(10)

Integración: mide cuántos recursos webs son enlazados por el recurso r

Novedad: en qué grado el recurso r es diferente de otros y proporciona información nueva. [5]

Conclusiones respecto a la investigación realizada.

El trabajo lo realice totalmente con la información obtenida en la web. He encontrado una enorme

cantidad de investigaciones, (muchas y diferentes), algunas de ellas pueden considerarse superficiales, en tanto que basan sus conclusiones en las características que los mismos buscadores proporcionan a través de sus webs y no realizan ningún tipo de test o experimentación. (Sin lugar a dudas el volumen de

información que maneja Internet es enorme, pero lamentablemente también lo es la información inútil) Teniendo en cuenta el relevamiento realizado acerca de los buscadores, Google es el motor de búsqueda de moda, parecería ser el más completo de todos los que funcionan hoy en día en la Web, aunque ya podemos encontrar aportes de algunos autores que critican parcialmente su diseño y proponen otros diseños "más eficientes" según su punto de vista.

Referencias

Internet site: The Web Robots Pages, http://www.robotstxt.org/wc/robots.html

1.

Internet site: Webcrawler, http://info.webcrawler.com/mak/projects/robots/faq.html

2.

Internet site: Tenth International World Wide Web Conferences, http://www10.org/w10-conference.html

3.

Documento on line: Seventh International World Wide Web Conferences, "The anatomy of a Large-Scale Hypertextual Web Search Engine", Sergey Brin ,Lawrence Page, Brisbane, Australia, (Abril, 1998).

http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

4.

Documento on line: 9th International World Wide Web Conferences, "An Efficient Algorithm to Rank Web Resources", Dell Zhang, Yisheng Dong , Amsterdam, The Netherlands, (Mayo 2000).

http://www9.org/w9cdrom/251/251.html

Documento on line: FESABID98, "Evaluación de los Principales buscadores desde el punto de vista

documental: Recogida, Análisis y Recuperación de Recursos de la información", Maldonado Martinez, A. y Fernandez Sanchez, (1998).

http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm

7.

Documento on line: Universidad de Murcia, "Introduction to Information Storage and Retrieval Systems." , Frakes W. y Baeza-Yates. (1992). http://www.um.es/gtiweb/fjmm/sarisite/tema1.html

8.

Documento on line: Stanford University, "Efficient Crawling Through URL Ordering", Junghoo Cho, Hector Garcia-Molina, Lawrence Page. (1996). http://www-db.stanford.edu/~cho/crawler-paper/

9. 5.