Evaluación secuencial - Índice secuencial

Índice secuencial

3.4 Evaluación secuencial

A continuación se evalúa el desempeño de la técnica LC-SSS y se compara contra los índices mas populares utilizados en espacios mé- tricos: M-Tree [25], GNAT [12], EGNAT [72], Spatial Approxima- tion Trees (SAT) [54]. También se incluye en la comparación al índice LC y al SSS, junto con una versión reciente denominada SSSTree [14] que utiliza un árbol como estructura base, en la que los pivotes del SSS son utilizados para dividir el espacio recursivamente. Se aplica- ron las configuraciones que permiten obtener el mejor desempeño reportado pos las estructuras utilizadas en esta sección para comparar

el rendimiento del LC-SSS. El apéndice A muestra los tamaños de clusters seleccionados para el índice LC-SSS.

Los experimentos se realizaron sobre dos colecciones de datos: NASA, compuesta por 40.700 imágenes representadas por vectores de dimen- sión 20. La segunda colección, Spanish, consiste de un conjunto de 51.589 palabras en español y para determinar la similitud entre dos objetos se aplicó la distancia de edición. En todos los casos los índices se construyeron utilizando el 90% de la colección de datos y el restan- te 10% se utilizó como consultas. Los valores del parámetro α fueron obtenidos experimentalmente para cada colección de forma tal de minimizar el número de evaluaciones de distancias, siendo α =0.44 para la colección Spanish y α =0.38 para la colección NASA. Para poder representar mejor la diferencia obtenida por los diferentes algoritmos, la mayoría de las figuras muestran valores normalizados entre cero y uno. La normalización se obtiene al dividir el valor obtenido por cada estrategia por el máximo valor reportado en el experimento.

La figura 3.9 muestra el número de evaluaciones de distancias realiza- das por diferentes algoritmos de selección de pivotes para la tabla de distancias almacenada dentro de cada cluster de la lista de clusters. La curva en el gráfico denominada SSS utiliza todos los pivotes seleccionados por medio de la técnica SSS sobre toda la base de datos. El algoritmo denominado SSS-L limita el número de pivotes Npiv=5 para las tablas de distancias dentro de cada cluster. El algoritmo denominado LC+SSS-L, utiliza cinco pivotes para armar la tabla de distancias. Se selecciona como el primer pivote al centro del cluster ci, y los cuatro pivotes restantes corresponden a los cuatro primeros pivotes obtenidos al aplicar SSS. El algoritmo LC+SSS-LC, también selecciona cinco pivotes, donde el primero es el centro del cluster ci y los cuatro pivotes restantes se seleccionan del conjunto de pivotes del SSS pero considerando las distancias de los pivotes SSS al centro ci. En este caso se seleccionan los cuatro pivotes más alejados al centro ci. En el algoritmo LC-LC, el primer pivote es el centro cluster ci, y los restantes pivotes son centros LC pero tomando como segundo pivote el centro más lejano al primero, el tercero es el más cercano al primero y el cuarto es el segundo centro más lejano al primero.

En ambas figuras el algoritmo que más reduce el número de evaluaciones de distancias es el LC+SSS-LC, lo cual muestra que no es ne- cesario almacenar toda la tabla SSS en cada cluster, logrando así redu- cir los costos de almacenamiento, y que es mejor utilizar pivotes que consideren la información local de cada cluster (en este caso la distancia a los centros). Por lo tanto, el algoritmo LC+SSS-LC se aplica a todos los experimentos reportados en el resto de este trabajo.

La figura 3.10 muestra la cantidad de evaluaciones de distancias re- queridas por diferentes estructuras de indexación. La técnica híbrida LC-SSS presenta mejor desempeño para radios 0.01 y 0.1 sobre la

colección NASA y el mejor desempeño para los radios 1, 2 y 3 para la colección Spanish, mientras que para radio 4 presenta un desempeño muy competitivo. Es importante destacar que lo relevante en las má- quinas de búsqueda es usar un radio pequeño puesto que al usuario se le deben mostrar relativamente pocas respuestas. Entonces LC-SSS es bueno para radios pequeños.

Finalmente la figura 3.11 [Izquierda] muestra el número de evaluaciones de distancias realizado por el algoritmo LC-SSS. Se compara el desempeño de este con la estrategia iDistance presentada en [44], la cual también es un algoritmo basado en clustering con la diferencia que utiliza el algoritmo K-Means. En términos lógicos este algoritmo mantiene en forma de B-Tree una tabla de una columna con las distancias de los objetos de cada cluster al centro del cluster respectivo. Con la excepción del algoritmo de clustering, iDistance se puede ver como un algoritmo equivalente al LC-SSS con tablas de una sola columna por cada cluster. En los experimentos se utilizó el mismo nú- mero de clusters m=776 para ambos algoritmos LC-SSS y iDistance. Los resultados obtenidos tanto para la colección NASA como para la colección Spanish, muestran que la propuesta de este trabajo obtiene un mejor desempeño.

El LC-SSS tiene mayor poder de selectividad que el índice iDistance puesto que (a) utiliza una mejor estrategia de clustering, y (b) las co- lumnas adicionales de sus tablas de pivotes junto con el orden particu- lar en que estos pivotes son puestos en cada tabla, incrementan su efectividad al momento de determinar los objetos a ser comparados directamente con la consulta. Es decir, el LC-SSS genera un conjunto más pequeño de objetos que son comparados con la consulta.

In document Consultas sobre espacios métricos en paralelo (página 45-49)