Sistemas de Recuperación de Información
Los SRI permiten el almacenamiento óptimo de grandes
volúmenes de información y la recuperación eficiente de
la información ante las consultas de los usuarios.
La recuperación de la información tiene que
ver con la representación, almacenamiento,
organización y acceso a los ítems de
Etapas del proceso de recup. de información:
Obtener representación de los documentos.
Identificar la necesidad informativa del usuario.
Búsqueda de documentos que satisfagan la consulta.
Obtención de resultados y presentación al usuario.
Evaluación de los resultados por parte del usuario.
Proceso de Recuperación de Información
Documentos de texto Consulta de usuario Análisis Análisis Representación del documento Representación de la consulta Cálculo de Similitud Documentos RecuperadosProceso de Recuperación de Información
El problema de RI
se puede definir como:
Dada una necesidad de información y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de los más
relevantes
. doc 1 doc 2…
doc N Necesidad de Información SRI doc 1 doc a doc b … doc K Recuperación doc 2 doc 3 … doc N Usuario Documentos no Relevantes Base de DatosPreprocesado del texto
Análisis léxico del texto
Eliminación de palabras vacías
Aplicación de lematización
Selección de los términos
Construcción de tesauros
Etapas para abordar el problema:
Elegir un modelo que permita calcular la relevancia de
un documento frente a una consulta.
Diseñar algoritmos y estructuras de datos que lo
Modelos
Modelos Clásicos:
Modelo Booleano
Modelo del Espacio Vectorial
Modelo Probabilístico
Modelos alternativos:
Extensiones al Modelo Booleano
Extensiones al Modelo Vectorial
Modelo Booleano
Características:
Relevancia Binaria: un documento es relevante o no lo es.
Consultas: combinaciones de palabras clave conectados por los operadores lógicos AND, OR y NOT.
Consultas de 1 palabra: un doc. es relevante si y sólo si contiene la palabra.
Consultas AND: los doc. deben tener todas las palabras.
Consultas OR: los doc. deben tener alguna de las palabras.
Consultas A but NOT B: los doc. deben ser relevantes para A pero no para B.
Los documentos relevantes son los que satisfacen totalmente la consulta, el resto son irrelevantes (no hay grados).
Modelo Booleano
Ventajas y desventajas
- Simple de formalizar y eficiente de implementar.
- No discrimina entre documentos más y menos relevantes.
- Da lo mismo que un documento tenga una o cien veces la palabra de la consulta.
- Da lo mismo que cumpla una o todas las claúsulas de un OR.
- No considera un calce parcial de un documento (ej. que cumpla con casi todas las cláusulas de un AND)
Modelo Vectorial
Características:
Documento: puede expresarse como un vector de pesos de términos.
Consulta: puede representarse como un vector de pesos de términos.
Técnicas para asignar pesos a los términos: una de ellas es la frecuencia del término (número de veces que aparece en el documento o consulta)
Similitud entre un documento y una consulta: se calcula la
distancia que existe entre los vectores que los representan; a menor distancia, mayor similitud, mayor relevancia del documento para esa consulta.
Modelo Vectorial
Ventajas y desventajas
- Simple de implementar.
- La mayoría de los motores de búsqueda lo implementan. - Al existir grados de relevancia, los resultados obtenidos se
pueden ordenar en función de estos.
- Se tiene en cuenta la frecuencia de la palabra clave en el documento para asignar la ponderación.
- Es posible el emparejamiento parcial de una consulta con un documento.
Índices
Una estructura efectiva de índices es importante
para el procesamiento de las consultas en los SRI.
Índices Invertidos
: son aquellos que relacionan
cada palabra clave K
icon el conjunto S
ide los
identificadores de documentos que contienen K
i;
además pueden proporcionar una lista de las
ubicaciones en las que aparece la palabra clave en
el documento.
Evaluación de los SRI
Podemos evaluar un SRI en función de dos características:
Eficiencia
Tiempo de respuesta
Espacio de almacenamiento necesario
Eficacia
Precisión: en qué medida los documentos
recuperados por el SRI son relevantes para el usuario.
Exhaustividad: en qué medida el SRI
recupera todos los documentos relevantes existentes en la base de datos.
SRI en la Web
Desafíos
Gigantesco volumen de texto.
Información distribuida y conectada por una red de
calidad variable.
Contenido altamente volátil.
La mayoría de las páginas son dinámicas.
Información mal estructurada y redundante.
Información de mala calidad, sin revisión editorial de
forma ni contenido.
Motores de Búsqueda
Sistemas que manejan grandes bases de datos de
referencias a páginas Web, recopiladas por medio de un
proceso automático.
Uno o varios agentes de búsqueda (crawlers) recorren la
Web y generan etiquetas que permiten su indexación y
almacenamiento en la BD.
Avanzados algoritmos de búsqueda analizan las páginas
que tienen en sus BD y proporcionan el resultado
Motores de Búsqueda
Componentes:
Crawler:
robot que recorre la Web buscando las
páginas a indexar.
Indexador:
mantiene un índice con esa información.
Máquina de Búsqueda:
realiza las búsquedas en el
índice.
Motores de Búsqueda
Web
Indexador
Máquina de
búsqueda
Índice
Interfaz
Usuarios
Robot
Colección
Motores de búsqueda
Motor de búsqueda a gran escala, de los más utilizados por su eficiencia en la búsqueda de información.
Utiliza un concepto llamado
PageRank
para decidir la valoración de las páginas. Los enlaces significan votos: si una página enlaza con otra, considera que está dando un voto a esa página que vincula. Según el número de votos (o enlaces) recibidos por una página, su posición variará. A mayor número de votos, mejor posición entre los resultados.Google también analiza la página que otorga el voto. Si la página que realiza el enlace hacia otra página (u otorga el voto) tiene prestigio, el voto también tiene más importancia. (técnica