El lugar que una página de resultado ocupa luego de una búsqueda en la Web, tiene que ver en principio con la relevancia que, se estima, le otorgará el usuario. Esto impone un ordenamiento determinado y una modelización indirecta de las expectativas del mismo. Pero modelizar las expectativas requiere en cierta forma de
30
modelizar al usuario mismo. Las secciones anteriores describen estrategias diversas para implementar la manera en que éste interpretaría la información escrita. Luego de esta interpretación, se requiere la priorización relativa de esos documentos que, presumiblemente, responden a su necesidad de información.
En términos generales el proceso puede esquematizarse como en la siguiente figura del autor Baeza-Yates [9].
Fig. 2. Proceso de recuperación de información.
Existen muchas alternativas de modelos para determinar la relevancia en el proceso de recuperación de información [117]. Se las puede clasificar en dos grupos:
a) Estrategias para recuperación de información: Modelos clásicos (Booleano, Vectorial o Probabilístico) o modelos estructurados (listas No sobrepuestas, nodos proximales) y a su vez responden a los distintos conjuntos teóricos (difusos/booleano extendido), algebraicos (vector generalizado, índice de semántica latente, redes neuronales), o probabilísticos (inferencia de red, redes de creencia).
b) Estrategias para navegación: plana, guiada estructurada o hipertexto.
Por ejemplo en [37] propone una categorización automática de los documentos como proceso de aprendizaje, donde el programa capta las
características que distinguen cada categoría o clase de las demás (las que deben poseer los documentos para pertenecer a esa categoría). La pertenencia es una escala graduada o coeficiente de pertenencia a cada clase existente. Las características se basan en la ocurrencia de ciertas palabras y en la realimentación del sistema basándose en consultas anteriores. Lo llamativo es que este tratamiento se realizó sin lematización previa de los documentos puesto que los autores la consideran riesgosa y una complicación innecesaria. En este punto, es de rigor diferenciar relevancia y posicionamiento ya que no son lo mismo [124]. Mientras la relevancia corresponde a la posición relativa numéricamente calculada por cierto algoritmo interno de un buscador, el posicionamiento es la ubicación final real de cierto resultado en función de la relevancia y otros factores que son propios del navegador.
Dado que un usuario promedio sólo accede a los diez o veinte primeros resultados entregados por el buscador [134], el posicionamiento incidirá esencialmente en el éxito de una búsqueda. Por lo tanto, toda la tarea técnica que se realice para obtener los resultados conceptualmente más correctos para una búsqueda queda degradada si el posicionamiento no se relaciona con estos tratamientos.
Como parte de un estudio preliminar para contextualizar el presente trabajo, se estudiaron los factores de posicionamiento. Es interesante lo hallado en [124] con Rottestein puntualmente para Google, que es actualmente un buscador muy utilizado. Pudo mostrar estadísticamente que:
-El page rank (coeficiente técnico, numérico de priorización) no se correlaciona con el posicionamiento. (Ver Fig. 3).
-Los factores de posicionamiento: cantidad de enlaces, edad del dominio, cantidad de anchor texts, cantidad de páginas indexadas por Google en el dominio, dominios que enlazan la página, los meta-keywords (las dos etiquetas que se colocan en el encabezado de las páginas con la descripción de
las páginas) que suele considerarse correlacionados con el posicionamiento no tienen correlación con él.
-Los mismos factores no muestran tampoco correlación con el page rank. -Si se estudian como grupos separados los diez primeros resultados (sean el grupo 1), los diez que le siguen (grupo 2) y los diez que siguen (grupo 3), se puede apreciar que el promedio de page rank decrece entre los grupos. Lo mismo sucede con el promedio de dominios que enlazan la Web, y la densidad promedio de keywords. Algunos de los resultados se reproducen en la Fig. 4.
Fig. 3. Posición y Page Rank en Google.
Los puntos marcan la relación entre la posición en los resultados de Google, y el Page Rank, la línea roja muestra como debería ser el gráfico, si existiera una relación lineal entre estos dos.
Posicion en Google vs. PageRank
0 2 4 6 8 10 0 5 10 15 20 25 30 35
Fig. 4. Calidad de factores y posicionamiento.
Promedios de Page Rank, cantidad de enlaces (Factor 5), densidad de keywords en el texto de la página (Factor 6), páginas indexadas en Google de ese dominio (Factor 7).
El trabajo logra establecer que ninguno de estos factores mencionados por los treinta especialistas internacionales convocados, hace que los resultados estén mejor posicionados en Google, sino que existirían otros criterios no considerados, por los que se determina la inclusión de un resultado en el grupo 1, 2 ó 3. Una vez dentro del grupo, habría un ordenamiento concreto decreciente por estos factores.
Es importante que, en el futuro, se trabaje sobre estos aspectos. Los diseñadores de buscadores deben tomar conciencia de que (más allá de todas las consideraciones eventuales respecto a la necesidad de posicionar un sitio) el dramático crecimiento documental de la Web exige cierta responsabilidad y el respeto de los factores que racionalmente se debieran vincular con el ordenamiento de los resultados.
Capítulo 3. Descripción de la estrategia global
La arquitectura general de esta propuesta ya presentada en [85], consta de tres niveles con distintos grados de abstracción (Fig. 5).
Fig. 5. Arquitectura global de la propuesta WIH
Esta arquitectura pretende ser una segmentación de la complejidad del problema según la visibilidad de datos. El trabajo consiste en el desarrollo de una propuesta de Estructura Virtual como punto de partida para el establecimiento de las restantes estructuras. ESTRUCTURA INTERNA ESTRUCTURA VIRTUAL ESTRUCTURA EXTERNA DATOS METADATOS USUARIO
“If we spoke a different language, we would perceive a somewhat different world”
Ludwig Wittgenstein (1889 – 1951)
La Estructura Virtual es el corazón de la propuesta y su objetivo es almacenar de manera alternativa la información, como forma de reorganizar los datos de una manera más apropiada para la Estructura Externa. Desde este punto de vista podría decirse que es un middleware para transformar documentos desde una organización propia hacia una organización típica de los mecanismos de búsqueda.