1.6 Respuesta de los sistemas de recuperación.
1.6.4 El análisis contextual y de enlaces de los sistemas de recuperación estructural
La idea de emplear elementos estructurales, como los hiperenlaces, para mejorar el rendimiento de la recuperación, es tan antigua como el propio espacio Web o aún más (Croft & Turtle, 1989). El periodo en que Broder sitúa los sistemas de segunda generación, sin embargo, marca las fechas de aplicación de esas ideas a los sistemas reales. El uso de criterios de popularidad, de técnicas métricas y, especialmente, de la información de y “alrededor de” los enlaces contenidos en documentos del espacio Web han contribuído muy significativamente a una nueva (y más exacta) consideración del problema de la recuperación en Internet.
DirectHit no constituye un sistema en sí mismo, sino un mecanismo de mejora de relevancia a través del “recuento de popularidad”. En palabras de su inventor:
“ [Es] un método de organización de la información en el cual se registra la actividad del usuario que busca, y se utilizan los datos de ese registro para organizar los documentos en búsquedas sucesivas del mismo o de otros usuarios”.
Originalmente, se basaba en una mecánica simple:
Proporciónese un índice que sea capaz de almacenar términos clave y asociar cada documento con al menos uno de ellos, siendo además capaz de asociar puntuaciones para cada término en el documento en el momento del
almacenamiento, de forma que sea posible asociar a cada término del índice las puntuaciones en cada documento ;
acéptese una primera búsqueda de un primer usuario;
identifíquense los términos clave que se ajustan a la primera petición; preséntense los documentos relacionados con la primera búsqueda al primer usuario;
permítase que el primer usuario seleccione al menos uno de los documentos resultantes de la primera búsqueda y sea éste un documento seleccionado; modifíquese el índice, de forma que la puntuación del término clave asociado al documento seleccionado modifique su valor relativo respecto a las
puntaciones de los términos restantes;
(modifíquese el índice, de forma que las puntuaciones totales de los términos clave de al menos uno de los documentos seleccionados se alteren en relación con las puntuaciones totales de los restantes términos; acéptese una segunda búsqueda de un segundo usuario;
identifíquense los términos clave que se ajustan a la segunda petición, que llamaremos el segundo conjunto de términos;
preséntense los documentos resultantes de la segunda petición al segundo usuario, de forma que se organicen en orden decreciente de las puntuaciones de sus términos clave siempre que exista al menos un término coincidente entre el primer y el segundo conjunto, de forma que el documento
seleccionado para el segundo usuario se ordenará por encima del lugar que ocupaba antes de que el primer usuario lo seleccionara”.
(Culliss, 1999)
Más allá de la mecánica concreta que este sistema propone, lo importante es que representa el primer ejemplo de empleo de información contextual (las acciones de los usuarios tras la obtención de resultados de búsqueda) que, en términos tradicionales, cabría interpretar como un procedimiento de relevance feedback indirecto.
DirectHit no tardó en aplicarse a sistemas que, hasta ese momento, proponían una recuperación meramente sintáctica. Pero, al mismo tiempo, otros dos algoritmos, traducidos a sendos sistemas, hacían su aparición en el panorama de los sistemas de recuperación en el espacio Web: HITS y PageRank.
El sistema HITS (Hipertext-Induced Topic Search) fue desarrollado por Jon Kleinberg durante una estancia en el Centro de Investigación de IBM en Almaden (Kleinberg, 2000). Posteriormente, se incorporó al sistema Clever (Clever Project, 1999). En cuanto a PageRank, obra de estudiantes de Stanford (Page, 2001) se incorporó al sistema Google (Brin & Page, 1998) y continua siendo su esencia.
HITS no constituye en sí mismo un sistema sino un procedimiento de clasificación automática de documentos en el espacio Web que parte de resultados previos de búsqueda:
“…Se selecciona un conjunto inicial de páginas, preferentemente realizando una petición convencional basada en palabras clave y luego se seleccionan las páginas que enlazan con las resultantes de la primera búsqueda o con las que las páginas resultantes conectan (...) Después, de forma repetitiva, se calculan valores de autoridad para las páginas del conjunto inicial, basándose en sus enlaces de partida y de llegada. Se definen una o más comunidades o “vecindarios” de páginas relacionadas en función de esos valores. Es probable que tales comunidades sean de interés y valor para el usuario interesado en la búsqueda por palabras clave de una página determinada”.
(Kleinberg, 2000).
Por el contrario, PageRank se emplea en el seno del sistema Google:
“Un método asigna orden de importancia a nodos de una base de datos interrelacionados, como cualquiera que contenga citas, el world wide web o cualquier base de datos de hipermedios. El orden asignado a un documento se calcula a partir del correspondiente a los documentos que lo citan. Además, se hace intervenir en el cálculo una constante que representa la probabilidad de encontrar por azar un documento. El método es especialmente útil para mejorar el rendimiento de los resultados de sistemas de recuperación en bases de datos de hipermedios, como el world wide web, cuyos documentos ofrecen una calidad muy dispar” .
En ambas acotaciones, resultan significativos algunos términos: authoritativeness, variation in quality. Además, las listas de referencias de las correspondientes patentes y las comunicaciones contemporáneas no pueden ser más reveladoras: es habitual en estos y otros documentos referencias a los trabajos de Henry Small y Francis Narin. En efecto, indicios de la integración de la investigación de estos sistemas en la corriente del análisis de citas y la bibliometría de evaluación. Por otra parte, la divulgación, siquiera parcial, de estos algoritmos ha generado la integración de las investigaciones sobre sistemas de recuperación de información distribuida en el espacio Web con los sistemas avanzados de recuperación textual. Siguiendo esta línea, se ha llegado a estudiar la combinación, por ejemplo, de HITS con otros modelos de recuperación (Okapi, Cover Density Ranking, Three-Level Scoring Method o el modelo general de espacio vectorial) en busca de una mejora, que efectivamente se produjo, del rendimiento (Li, Shang, & Zhang, 2002).
Cabe añadir que existe en la actualidad un elemento contextual en estos mecanismos: el procesamiento de los textos de los documentos enlazados y también de los fragmentos del texto del propio documento que “rodean” a cada hiperenlace (Eiron & Mccurley, 2003).
Revisiones relativamente recientes revelan el modelo de sistemas hipertextuales o basados en elementos estructurales de búsqueda, como un campo extremadamente fructífero de investigación (Greco, Greco, & Zumpano, 2001; Picard & Savoy, 2003).