A pesar de que los sri no son tan conocidos como los sistemas de bases de datos (sbd), se están utilizando desde hace tantos años como los sbd más antiguos. Am- bos tipos de sistemas deben permitir al usuario almacenar y recuperar informa- ción, sin embargo, hay diferencias sustanciales en su funcionamiento y ámbito de aplicación. En este apartado se estudian las principales diferencias entre estos dos tipos de sistemas de información.
Los sbd tradicionales solo pueden utilizarse para recuperar datos y sus técnicas no se pueden emplear en aplicaciones que necesiten rescatar documentos. Igualmente los sri solo permiten almacenar documentos y no son adecuados para almacenar y recuperar datos. Por esta razón, desde sus orígenes, ambos tipos de sistemas han ido evolucionando separadamente, y sus técnicas y modelos son completa- mente diferentes. Sin embargo, durante los últimos años, los principales sistemas de gestión de bases de datos han ido incorporando módulos para el manejo de información textual que les permite indexar y gestionar documentos. De esta ma- nera, ahora es posible combinar datos y documentos dentro de un mismo sistema de información, e incluso es posible realizar consultas que combinen condiciones de recuperación sobre ambos tipos de información.
Para almacenar datos dentro de una base de datos, previamente es necesario dise- ñar un esquema lógico que defina la estructura y el tipo de los datos que se van a insertar. Por ejemplo, en una base de datos relacional, esta información se especi- fica al crear las tablas donde se van a insertar los datos. Cada tabla se compone de un conjunto de columnas y cada columna almacena un solo dato del tipo corres- pondiente. Sin embargo, para los documentos de una colección no se puede crear un esquema de base de datos porque el contenido de cada documento es diferente. Sus secciones y párrafos tienen longitudes muy variadas y pueden llegar a ser muy largos. Además, es imposible predecir cuántas secciones o cuántos párrafos tendrá cada uno de los documentos de la colección. Por esta razón, en los sri no se crea ninguna estructura de datos para almacenar los documentos. La unidad de almacenamiento y recuperación es el documento, y cada documento se almacena separadamente en un solo bloque, normalmente un solo fichero.
A la hora de especificar sus necesidades de información, los usuarios de un sri tie- nen muchas más dificultades que con los sbd. Los datos de un sbd siempre tienen una estructura y un significado que vienen claramente definidos por el esquema de la base de datos que los almacena. Una consulta a un sbd en sql define claramente unas condiciones de recuperación que todos los datos devueltos van a cumplir exactamente, con lo que siempre se puede decir que las respuestas satisfacen com- pletamente las necesidades de los usuarios. Sin embargo, dadas las características de la información que manejan, los sri no pueden ser tan exactos, y entre el con-
lenguaje cuya ambigüedad dificulta su manejo por los ordenadores, sobre todo por la imposibilidad que tienen de entender su significado preciso.
Por ejemplo, cuando se recupera de una base de datos el teléfono del Ayuntamien- to de Peñíscola, el usuario realiza una consulta sql como por ejemplo la siguiente: select distinct telefono
from ayuntamientos
where municipio = ‘Peñíscola’
Además, todos los elementos de la respuesta se corresponderán con la información solicitada. Sin embargo, para buscar esta información con un sri, la consulta que se puede utilizar es mucho menos exacta. En este caso, un usuario podría indicar: (teléfono ayuntamiento Peñíscola).
Como respuesta del sistema, el usuario recibirá una lista de documentos ordenados según su capacidad de satisfacer las condiciones de la consulta. Cuanto mayor sea esta capacidad mayor será la relevancia del documento con respecto a la consul- ta. Sin embargo, a pesar de esto, muchos de los documentos de la respuesta no proporcionarán la información que se solicita, es decir, el número de teléfono del Ayuntamiento de Peñíscola.
Para realizar su función, los sri procesan el contenido de los documentos que al- macenan, y los representan por medio de un conjunto de palabras que se extraen de su contenido. Posteriormente, los documentos son considerados para su recu- peración de acuerdo a su relevancia con respecto a la consulta inicial. Todo este proceso requiere la extracción de información de los textos y la utilización de esta información para evaluar la consulta. La dificultad no esta solo en cómo extraerla, sino en cómo utilizar la información para estimar la relevancia del documento con respecto a la consulta.
Como puede verse, la noción de relevancia es central en los sri. De hecho, pode- mos decir que el principal objetivo de los sri es recuperar el mayor número posible de documentos relevantes para el usuario, y recuperar el menor número posible de ellos que no sean suficientemente relevantes. En el resto del capítulo se estudian las principales características y técnicas empleadas por los sri actuales. En la tabla 2.1 se resumen todos los conceptos explicados en este apartado.
Sistemas de Bases de Datos Sistemas de Recuperación de Información Almacenan datos con estructura regular y
significado preciso Almacenan documentos con estructura irregular y signifi-cado impreciso Consultas con condiciones precisas Consultas con condiciones aproximadas
select distinct telefono
from ayuntamientos
where municipio = ‘Peñíscola’
(teléfono ayuntamiento Peñíscola)
Resultados siempre relevantes Resultados varían de muy relevantes a poco relevantes Consultas completamente satisfechas Consultas más o menos satisfechas