• No se han encontrado resultados

Sistemas de Recuperación de Información

N/A
N/A
Protected

Academic year: 2021

Share "Sistemas de Recuperación de Información"

Copied!
19
0
0

Texto completo

(1)

Sistemas de Recuperación de Información

Los SRI permiten el almacenamiento óptimo de grandes

volúmenes de información y la recuperación eficiente de

la información ante las consultas de los usuarios.

La recuperación de la información tiene que

ver con la representación, almacenamiento,

organización y acceso a los ítems de

(2)

Etapas del proceso de recup. de información:

„

Obtener representación de los documentos.

„

Identificar la necesidad informativa del usuario.

„

Búsqueda de documentos que satisfagan la consulta.

„

Obtención de resultados y presentación al usuario.

„

Evaluación de los resultados por parte del usuario.

(3)

Proceso de Recuperación de Información

Documentos de texto Consulta de usuario Análisis Análisis Representación del documento Representación de la consulta Cálculo de Similitud Documentos Recuperados

(4)

Proceso de Recuperación de Información

El problema de RI

se puede definir como:

Dada una necesidad de información y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de los más

relevantes

. doc 1 doc 2

doc N Necesidad de Información SRI doc 1 doc a doc b … doc K Recuperación doc 2 doc 3 … doc N Usuario Documentos no Relevantes Base de Datos

(5)

Preprocesado del texto

„

Análisis léxico del texto

„

Eliminación de palabras vacías

„

Aplicación de lematización

„

Selección de los términos

„

Construcción de tesauros

(6)

Etapas para abordar el problema:

„

Elegir un modelo que permita calcular la relevancia de

un documento frente a una consulta.

„

Diseñar algoritmos y estructuras de datos que lo

(7)

Modelos

Modelos Clásicos:

„

Modelo Booleano

„

Modelo del Espacio Vectorial

„

Modelo Probabilístico

Modelos alternativos:

„

Extensiones al Modelo Booleano

„

Extensiones al Modelo Vectorial

(8)

Modelo Booleano

Características:

Relevancia Binaria: un documento es relevante o no lo es.

Consultas: combinaciones de palabras clave conectados por los operadores lógicos AND, OR y NOT.

Consultas de 1 palabra: un doc. es relevante si y sólo si contiene la palabra.

Consultas AND: los doc. deben tener todas las palabras.

Consultas OR: los doc. deben tener alguna de las palabras.

Consultas A but NOT B: los doc. deben ser relevantes para A pero no para B.

Los documentos relevantes son los que satisfacen totalmente la consulta, el resto son irrelevantes (no hay grados).

(9)

Modelo Booleano

Ventajas y desventajas

- Simple de formalizar y eficiente de implementar.

- No discrimina entre documentos más y menos relevantes.

- Da lo mismo que un documento tenga una o cien veces la palabra de la consulta.

- Da lo mismo que cumpla una o todas las claúsulas de un OR.

- No considera un calce parcial de un documento (ej. que cumpla con casi todas las cláusulas de un AND)

(10)

Modelo Vectorial

Características:

Documento: puede expresarse como un vector de pesos de términos.

Consulta: puede representarse como un vector de pesos de términos.

Técnicas para asignar pesos a los términos: una de ellas es la frecuencia del término (número de veces que aparece en el documento o consulta)

Similitud entre un documento y una consulta: se calcula la

distancia que existe entre los vectores que los representan; a menor distancia, mayor similitud, mayor relevancia del documento para esa consulta.

(11)

Modelo Vectorial

Ventajas y desventajas

- Simple de implementar.

- La mayoría de los motores de búsqueda lo implementan. - Al existir grados de relevancia, los resultados obtenidos se

pueden ordenar en función de estos.

- Se tiene en cuenta la frecuencia de la palabra clave en el documento para asignar la ponderación.

- Es posible el emparejamiento parcial de una consulta con un documento.

(12)

Índices

Una estructura efectiva de índices es importante

para el procesamiento de las consultas en los SRI.

Índices Invertidos

: son aquellos que relacionan

cada palabra clave K

i

con el conjunto S

i

de los

identificadores de documentos que contienen K

i

;

además pueden proporcionar una lista de las

ubicaciones en las que aparece la palabra clave en

el documento.

(13)

Evaluación de los SRI

Podemos evaluar un SRI en función de dos características:

„ Eficiencia

„ Tiempo de respuesta

„ Espacio de almacenamiento necesario

„ Eficacia

„ Precisión: en qué medida los documentos

recuperados por el SRI son relevantes para el usuario.

„ Exhaustividad: en qué medida el SRI

recupera todos los documentos relevantes existentes en la base de datos.

(14)

SRI en la Web

Desafíos

„

Gigantesco volumen de texto.

„

Información distribuida y conectada por una red de

calidad variable.

„

Contenido altamente volátil.

„

La mayoría de las páginas son dinámicas.

„

Información mal estructurada y redundante.

„

Información de mala calidad, sin revisión editorial de

forma ni contenido.

(15)

Motores de Búsqueda

Sistemas que manejan grandes bases de datos de

referencias a páginas Web, recopiladas por medio de un

proceso automático.

Uno o varios agentes de búsqueda (crawlers) recorren la

Web y generan etiquetas que permiten su indexación y

almacenamiento en la BD.

Avanzados algoritmos de búsqueda analizan las páginas

que tienen en sus BD y proporcionan el resultado

(16)

Motores de Búsqueda

Componentes:

„

Crawler:

robot que recorre la Web buscando las

páginas a indexar.

„

Indexador:

mantiene un índice con esa información.

„

Máquina de Búsqueda:

realiza las búsquedas en el

índice.

(17)

Motores de Búsqueda

Web

Indexador

Máquina de

búsqueda

Índice

Interfaz

Usuarios

Robot

Colección

(18)

Motores de búsqueda

GOOGLE

Motor de búsqueda a gran escala, de los más utilizados por su eficiencia en la búsqueda de información.

Utiliza un concepto llamado

PageRank

para decidir la valoración de las páginas. Los enlaces significan votos: si una página enlaza con otra, considera que está dando un voto a esa página que vincula. Según el número de votos (o enlaces) recibidos por una página, su posición variará. A mayor número de votos, mejor posición entre los resultados.

Google también analiza la página que otorga el voto. Si la página que realiza el enlace hacia otra página (u otorga el voto) tiene prestigio, el voto también tiene más importancia. (técnica

HITS

)

(19)

Referencias

Documento similar

En este ensayo de 24 semanas, las exacerbaciones del asma (definidas por el aumento temporal de la dosis administrada de corticosteroide oral durante un mínimo de 3 días) se

En un estudio clínico en niños y adolescentes de 10-24 años de edad con diabetes mellitus tipo 2, 39 pacientes fueron aleatorizados a dapagliflozina 10 mg y 33 a placebo,

• Descripción de los riesgos importantes de enfermedad pulmonar intersticial/neumonitis asociados al uso de trastuzumab deruxtecán. • Descripción de los principales signos

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes

• For patients with severe asthma and who are on oral corticosteroids or for patients with severe asthma and co-morbid moderate-to-severe atopic dermatitis or adults with

Administration of darolutamide (600 mg twice daily for 5 days) prior to co-administration of a single dose of rosuvastatin (5 mg) together with food resulted in approximately