Modelo de Eficiencia de la Espacialización

PARTE II: ALGORITMOS DE ESPACIALIZACIÓN

Capítulo 7. Resultados Experimentales

7.4. Correlación Tridimensional a Experto

7.5.2. Modelo de Eficiencia de la Espacialización

Intuitivamente, podemos suponer que la calidad de la estructura de la información representada en el modelo tridimensional está directamente relacionada con la calidad de las representaciones en las fases intermedias de análisis y proyección.

Los datos de la Figura 14 apoyan, en principio, esta idea: en general, se obtienen mejores resultados globales (comparación 3D-Experto) con los algoritmos de análisis y proyección que proporcionan también mejores resultados en las comparaciones kDim-Experto y kDim-3D.

Para analizar este efecto, introducimos el concepto de Eficiencia de la Espacialización. La denominación de eficiencia no procede del término ingenieril que indica un buen aprovechamiento de los recursos, sino de la eficiencia en sentido termodinámico, a saber: la fracción de energía participante en un proceso que se transforma en otra forma de energía aprovechable, frente a la fracción que se degrada en forma de entropía, y que, carente de orden y estructura, se convierte en pérdidas.

Resultados Experimentales 99

Figura 14: Efectos de análisis y proyección en cada fase de la espacialización Un modelo simplista de esta idea podría ser el de la Figura 15. En él suponemos que: - La estructura de la información contenida en la colección de documentos, vectores k-

dimensionales y modelo tridimensional se representan perfectamente mediante la evaluación del experto, la estructura de clusters k-dimensionales y la de clusters tridimensionales, respectivamente.

- Los coeficientes de correlación entre matrices de pertenencia son una buena estimación de la eficiencia de cada fase, es decir, la fracción de la estructura de la información que se conserva efectivamente en el modelo, por contraposición a la parte de la estructura de la información que se pierde en la reducción de dimensionalidad.

Aplicación de Entornos Virtuales para la Exploración y Búsqueda de Información

100 ALGORITMOS DE ESPACIALIZACIÓN

Figura 15: Modelo simplista de la eficiencia para las fases de análisis y proyección Definimos la eficiencia total E de la espacialización como:

(26)

Bajo los supuestos de este modelo naïve, el valor de E debe ser muy próximo a 1, ya que la fracción de la estructura de la información presente en el modelo tridimensional es el producto de las fracciones correspondientes a las fases de análisis y proyección.

Sin embargo, los datos experimentales no respaldan una relación tan rigurosa. ) 3 ( * ) ( ) 3 ( D kDim Correl Experto kDim Correl Experto D Correl E − − − =

Resultados Experimentales 101

Figura 16: Datos experimentales de eficiencia

La Figura 16 muestra los valores experimentales del numerador y denominador de la ecuación 12. Si las suposiciones del modelo simplista fuesen exactas, todos los puntos deberían alinearse en la recta de trazos, correspondiente a E = 1.

El hecho de que haya puntos alejados de la recta E=1 también indica que existe cierta estructura de la información implícita u oculta, no reflejada en los clusters y evaluación del experto, pero que puede tener efectos sobre otras fases del proceso.

Calculada la recta de regresión (de ecuación y = 0.8811 x + 0.1113), el coeficiente de correlación r = 0.689 muestra que la tendencia general sigue aproximadamente el modelo, pero también existen efectos adicionales a tener en cuenta, que aquél no contempla.

El término independiente de la ecuación de la recta (0.1113) es ligeramente mayor que la estructura residual presente en el caso del control experimental con vectores aleatorios (véase el apartado 7.6.2 y la Tabla 18), y puede interpretarse aproximadamente como el efecto del ruido aleatorio en el proceso, y de la existencia de factores adicionales, no contemplados en el modelo simplista que hemos considerado.

Por otra parte, el término de primer grado (0.8811), ligeramente menor que 1, indica que existe una cierta pérdida de eficiencia en el proceso, aunque converge a la eficiencia teórica para altos valores de las correlaciones (zona superior derecha de la Figura 16).

Aplicación de Entornos Virtuales para la Exploración y Búsqueda de Información

102 ALGORITMOS DE ESPACIALIZACIÓN

Figura 17: Modelo mejorado de la eficiencia para las fases de análisis y proyección Este modelo refleja los efectos adicionales deducidos de los datos experimentales. En él incluimos la posibilidad de la existencia de estructura que no quede reflejada explícitamente en los resultados de correlación durante las fases de análisis y proyección, pero que influencie los resultados globales del proceso (estructura implícita). También consideramos la posibilidad de pérdidas de estructura en cada fase, debidas a que los algoritmos utilizados pueden no ser óptimos, y a la influencia de ruido aleatorio, que puede influir (positiva o negativamente) en los resultados de la espacialización.

Sin embargo, el proceso de evaluación de nuestro estudio no proporciona datos suficientes para cuantificar todas las magnitudes presentadas, por lo que un análisis más detallado queda abierto para futuros trabajos.

A partir de este modelo, surge naturalmente la cuestión de si los distintos algoritmos de análisis y proyección se comportan de forma igualmente próxima al modelo simplista, o si algunos de ellos parecen sacar un partido más o menos eficaz de la estructura implícita de la información.

Para contestar a esta pregunta, representamos de nuevo los datos experimentales de eficiencia, separados por algoritmos de análisis y de proyección (Ver Figura 18 y Figura 19).

Resultados Experimentales 103

Figura 18: Datos de eficiencia por algoritmo de análisis

Aplicación de Entornos Virtuales para la Exploración y Búsqueda de Información

104 ALGORITMOS DE ESPACIALIZACIÓN

Los datos correspondientes al análisis DVS, cuya recta de regresión lineal tiene como ecuación y = 0.9861 x + 0.1154 y correlación r = 0.867, muestran un acuerdo mucho más cercano con el modelo simple; mientras el análisis VC, con ecuación y = 0.5923 x + 0.1362 y correlación r = 0.444, obtiene en general una eficiencia menor que el DVS, y es responsable de la mayor parte de los puntos alejados de la recta E = 1. DVS efectúa una reducción de dimensionalidad equilibrada entre las fases de análisis (de miles de dimensiones a decenas) y proyección (de decenas a 3); mientras VC prácticamente sólo reduce dimensionalidad durante la proyección.

Algoritmo Proyección Ec. Recta de regresión Correlación Truncado y = 0.6556 x + 0.0578 r = 0.3892 Perspectiva Traza y = 1.0526 x + 0.0377 r = 0.7428 Perspectiva Correlación y = 0.7348 x + 0.2515 r = 0.7384 Pertenencia a Cluster y = 0.9937 x + 0.0954 r = 0.9243

Tabla 18: Regresión lineal para los datos experimentales de eficiencia por algoritmo de proyección

De los datos de regresión lineal por algoritmo de proyección (Tabla 18) se deduce que el algoritmo de Truncado es el que más se aleja del modelo simplificado, proporcionando valores de eficiencia anormalmente bajos, mientras que el de Pertenencia a Cluster lo sigue de forma más cercana. Esto indica que los resultados globales del proceso de espacialización en el caso de la proyección por Truncado parecen ser peores de lo que cabría esperar de los resultados por separado de las fases de análisis y proyección, mientras que en la proyección por Pertenencia a Cluster los resultados parciales de cada fase dan una indicación mucho más fiable del resultado global.

La explicación que damos a este resultado es la siguiente:

La pérdida esperable de información en la fase de proyección es máxima en el caso de Truncado (que usa sólo la información presente en las tres dimensiones más significativas y desprecia las restantes) y mínima para la Pertenencia a Cluster (que utiliza la información de todas las dimensiones). Este efecto es mayor para el análisis VC, puesto que parte de un número de dimensiones mucho mayor que DVS, por lo que probablemente se despreciará mucha más información en el proceso de truncado.

Parece razonable pensar que una causa importante de la desviación respecto del modelo simplista es que la correlación k-Dimensional a Tridimensional, que debería medir la bondad de la fase de proyección, en realidad subestima las pérdidas de información en dicha fase, en especial cuando éstas son muy elevadas, como en el caso de la proyección por Truncado. Si esta interpretación es correcta, supondría que, aunque el modelo propuesto de eficiencia es adecuado para algoritmos que conserven bien la estructura de la información, debe tomarse con ciertas reservas en los casos extremos de algoritmos de eficiencia muy baja.

Resultados Experimentales 105 La verificación de esta interpretación debería considerarse como una cuestión abierta para futuros trabajos, con objeto de la mejora del proceso de evaluación y del modelo de eficiencia de la espacialización.

Algoritmo Proyección Media Varianza

Truncado 1.01670 1.49622

Perspectiva Traza 1.30265 0.83096

Perspectiva Correlación 1.80629 1.06722

Pertenencia a Cluster 1.94378 0.73596

ANOVA de 1 vía: F(3, 284) = 13.064 p = 5.129E-08

Tabla 19: Análisis de Varianza para los datos experimentales de eficiencia por algoritmo de proyección

Los datos de la Tabla 19 confirman la idea de que la proyección por Truncado genera los valores más bajos de eficiencia, indicando que el proceso global no obtiene todo el partido deseable a partir de las fases individuales de análisis y proyección; mientras que Perspectiva Correlación y Pertenencia a Cluster producen los valores de eficiencia más altos, y las diferencias entre algoritmos de proyección a este respecto son muy significativas.

In document Aplicación de entornos virtuales para la exploración y búsqueda de información (página 114-121)