2. VISUALIZACIÓN DE RESULTADOS DE ALGORITMOS DE
2.1. DISEÑO DEL MODELO DE VISUALIZACIÓN DE LOS RESULTADOS DE
2.1.2. ESTRUCTURA DEL MODELO VISUAL PROPUESTO
Nuestro objetivo radica en lograr una visualización cuya calidad no se vea afectada por el aumento de la dimensionalidad de los datos y del número de elementos del conjunto de datos. Uno de los principales problemas que apreciamos en las técnicas abordadas en el capítulo anterior fue la aglomeración visual, causada por los aspectos mencionados en el párrafo anterior, que propicia a su vez la aparición de la oclusión y el solapamiento de elementos. Dicho problema ocurre fundamentalmente porque cada objeto del conjunto de datos tiene una representación en la visualización, es decir, se dibujan todos los elementos. Evidentemente mientras mayor sea el tamaño de la muestra mayor será la aglomeración visual.
Al inicio de este capítulo habíamos aclarado que el propósito de la visualización era brindar información sobre la solución del agrupamiento y no brindar facilidades para la construcción de dicha solución. Luego, con el objetivo de independizar la visualización del tamaño del conjunto de datos, podemos sacrificar la información que nos brinda la representación de cada elemento y visualizar en función de las propiedades del agrupamiento mencionadas anteriormente. Esto simplifica mucho nuestro problema, pues solo tendríamos que codificar estas cuatro variables independientes. La visualización que proponemos intenta representar toda esta información en un único gráfico.
La similitud externa es una medida entre grupos que muestra cuán cercanos (parecidos) o lejanos (diferentes) se encuentran los grupos entre ellos. La información que brinda esta medida es, en cierto sentido, espacial; por lo que se representará en el plano 2D, donde los grupos se codifican mediante regiones en el plano (x,y). La posición de cada región respecto a los demás, o mejor dicho, la distancia entre ellos, es proporcional a dicha medida. El propósito de esta representación es ilustrar las relaciones entre los grupos usando la distancia visual. De esta manera grupos que sean similares estarán unidos, mientras que grupos disímiles se representaran distantes.
25
Para lograr esta idea proponemos usar técnicas de escalado multidimensional (Multidimensional Scaling MDS) que tratan sobre el siguiente problema: para un conjunto de similitudes (o distancias) observadas entre pares de objetos de un conjunto de N elementos relativos a p
variables, se trata de encontrar una representación gráfica de estos en k-dimensiones (k < p), de modo que sus posiciones casi ajusten las similitudes (o distancias) originales. Aplicando un MDS a los elementos más representativos de los grupos, es decir, los centroides o los puntos medios de cada grupo; para un k = 2 se logra una representación aproximada en un plano cartesiano de la similitud relativa entre los grupos.
Con el MDS se erradica también el problema de los datos multidimensionales, pues este se utiliza como función de mapeo entre las altas dimensiones originales y las dos dimensiones en que van a ser representados los datos.
Para codificar el parámetro de la disimilitud interna media correspondiente a cada grupo, que es una medida de la relación de los elementos dentro del grupo - cuan semejantes son entre sí - utilizaremos la tercera dimensión, el eje z.
La estructura que utilizaremos para representar este modelo serán mallas tridimensionales, en vez de una estructura de puntos o cualquier otra parecida en 3D, porque lo que se está representando son los grupos como un todo y así se evita la confusión de que se puedan estar visualizando todos los elementos del agrupamiento.
Hasta este momento nuestra visualización se vería como un paisaje tridimensional montañoso, donde cada pico representa un grupo y la altura de los mismos es proporcional a la similitud interna correspondiente a cada grupo, es decir, solo se visualizará la topología de los grupos. La cantidad de elementos por grupos será codificada a través del diámetro de la base de cada pico, este será proporcional al número de objetos dentro del grupo. A grupos numerosos corresponden picos de base ancha.
26
Por último y sin restarle importancia, nos quedaría por codificar la desviación estándar de cada grupo, que es una medida estadística de varianza que se aplica sobre las similitudes de los objetos de cada grupo y nos sirve, entre otras cosas, para tener una noción de la presencia o no de ruido dentro de los mismos. El ruido son aquellos elementos que están muy separados del resto de los elementos del grupo.
Anteriormente habíamos llegado a la conclusión de que la desviación estándar y la media de las disimilitudes internas, eran medidas de gran importancia dentro del agrupamiento y que la codificación mediante el color era el mecanismo más eficiente de la representación. Por tanto se representa la desviación estándar mediante un mapeo de colores.
De acuerdo con varios especialistas del área de la visualización de la información, los colores no deberían ser usados para codificar diferencias cuantitativas, la diferencia de colores se expresa mejor como diferencias en una escala nominal, cambiar de rojo a verde no significa “algo más que otro” como es el caso de cambiar de un punto pequeño a uno grande. Realmente la mejor representación del espacio psicológico de similitud para los colores no es una línea sino un círculo. Por esto es difícil utilizar diferencias progresivas en los colores para entender el incremento o decremento progresivo de alguna cantidad. El color no está psicológicamente ordenado (Nowell, 1997). A pesar de esto, algunos investigadores han determinado que colores como el azul y el verde son asociados a información no crítica sobre los datos, el amarillo ligeramente crítica y el rojo y el naranja con estados críticos de los datos.
Utilizaremos colores como el azul y el verde para expresar grupos de datos con menor desviación estándar, lo que significa que los datos están más cohesionados; y el rojo y el naranja para describir desviaciones mayores, es decir, grupos donde los elementos están más dispersos. Podremos encontrar grupos con menor desviación estándar buscando picos con colores azules o verdes, mientras que picos con colores sobre el rojo y el naranja representarán grupos con mayores desviaciones estándar y por lo tanto propensas a contener ruido.
27
Podemos resumir que nuestra visualización a través de mallas tridimensionales consiste en un plano horizontal en 3D donde se elevan picos coloreados en numerosas locaciones y donde cada pico representa un grupo dentro del agrupamiento. La información asociada a cada grupo está dada por la locación del correspondiente pico en el plano, su altura, volumen y color.
El resultado en general de nuestra representación es que logra enfatizar características sobre conjuntos de datos numerosos y cuyos elementos son altamente dimensionales. El usuario puede ser capaz de identificar grupos con una alta similitud buscando elevados picos, o grupos muy parecidos a través de picos muy cercanos. También puede identificar grupos con una baja desviación estándar mediante la búsqueda de cimas con colores dentro de la gama del azul y el verde. Grupos con alta desviación estándar, como ya mencionamos, suelen ser ruidosos y por tanto tienen un color rojo. Otra ventaja es que logra una visualización completa del conjunto de datos sin rebasar los límites del dispositivo visual.
2.1.3. POSIBLES INTERACCIONES A REALIZAR SOBRE EL MODELO PRPUESTO