Técnicas de Visualización para datos multiparamétricos

Capitulo 2: SIG y aplicaciones Web para el análisis visual de datos

2.2 Integración de técnicas de visualización científica en un SIG

2.2.4 Técnicas de Visualización para datos multiparamétricos

48 Actualmente existe una amplia gama de técnicas de visualización para datos multiparamétricos. Las misma pueden ser clasificadas en geométricas, basadas en íconos y basadas en pixel (Shneiderman 1996; S.R. Laramee 2004)

2.2.4.1 Técnicas Geométricas.

Las técnicas geométricas son aquellas que utilizan elementos (tales como líneas, puntos o curvas) como propiedades visuales para representar los datos. Existe gran número de ellas, tales como

Prosection Views (G. Grinstein 1989; Brodlie 1992; W. Muller 2000), hyper slices , parahistograms (Ong y Lee, 1996 ), coordenadas en forma de estrellas.

Sin embargo, tres técnicas se destacan por su amplio uso. Estos son los gráficos de dispersión (A. Inselberg 1990; Cleveland 1993; Theisel 2000; Keim 2002; Charles Hansen 2005; Q. Cui 2006), las coordenadas paralelas (A. Inselberg 1990; Theisel 2000; Keim 2002), y gráficos de Andrews (Andrews 1972). Las técnicas geométricas son muy buenas para percibir la correlación entre dos variables.

Coordenadas paralelas.

En un sistema de coordenadas paralelas (A. Inselberg 1990) las distintas dimensiones de los datos se representan en ejes verticales uniformemente espaciados. De esta manera, cada elemento del espacio multidimensional se transforma en una línea poligonal que atraviesa todos los ejes. Esta técnica crea un eje de coordenadas para cada atributo colocándolos paralelamente. El valor de cada dimensión en un determinado punto de datos es marcado en el eje correspondiente. La representación final para un objeto es una línea que recorre las posiciones marcadas en cada dimensión (Theisel 2000; Keim 2002)

La técnica es muy eficiente para mostrar patrones en los datos o para percibir relaciones entre los atributos, pero tiene dos deficiencias. La primera es cuando el volumen de datos crece, ya que se

49 solapan gran cantidad de líneas y tiende a formar una superficie donde no se puede extraer ninguna conclusión. El principal problema del solapado es la pérdida de información. Una solución sería utilizar colores semitransparentes, con lo que se logra disminuir el número de líneas ocultas por superposición. Otra salida sería realizar un filtrado del conjunto de datos para disminuir el total de entradas. (Theisel 2000; Charles Hansen 2005), Maniyar2006]

La segunda y mayor deficiencia de la técnica tiene relación con los atributos nominales. El problema con estos atributos es que tienden a formar en la imagen segmentos de línea por los que pasan muchos puntos del conjunto de datos, los cuales eliminan la posibilidad de percibir patrones y relaciones entre los atributos, pero además eliminan la posibilidad de mostrar información estadística básica como la frecuencia de aparición de un valor en un atributo. Una vía para aminorar esta dificultad es transformar el eje de un atributo nominal en un arreglo vertical de gráficos que muestran la frecuencia absoluta de los valores. (Theisel 2000)

50 Figura 5 Coordenadas Paralelas.

Diagramas de Dispersión.

El diagrama de dispersión es una técnica simple muy utilizada. Su forma más sencilla se manifiesta cuando los datos tienen solo dos dimensiones. Con dos dimensiones la técnica consiste en trazar un eje de coordenadas y utilizar los valores de las dimensiones como 2 punto (x,y) de R resultado en un gráfico donde se observan dispersos los puntos de datos.

Para datos multiparamétricos es muy frecuente utilizar matrices de diagramas de dispersión. las matrices resultantes son cuadradas y el elemento (i,j) de la matriz es un diagrama de dispersión

51 de la dimensión i y la j. El diseño evita la pérdida de la información pero en cambio son engorrosos los análisis complejos. Una deficiencia adicional es que la diagonal principal de la matriz es subutilizada. Algunos trabajos actuales están encaminados a aprovechar mejor esta región de la representación. (Q. Cui 2006)

Gráficos de Andrew.

En esta técnica cada observación es representada por una función f(t) que se evalúa en el intervalo (0,1). Cada función es una serie de Fourier, cuyos coeficientes se igualan a los valores de las dimensiones para cada observación. (Andrews 1972; Matlab 1994)

La técnica permite identificar con facilidad diferencias entre grupos de observación, ya que por lo general observaciones pertenecientes a un mismo grupo presentan una forma de la función similar. Los análisis sobre variables individuales resultan en cambio mucho más engorrosos. (Matlab 1994)

La virtud fundamental de la técnica es que puede representar conjuntos de datos de un tamaño relativamente grande y además con un número de dimensiones elevado.

2.2.4.2 Técnicas basadas en iconos.

Las técnicas basadas en iconos consisten en crear una imagen de un conjunto de datos. El resultado es un conjunto de figuras con diferentes características visuales. Las técnicas basadas en iconos tienen dos parámetros fundamentales que las caracterizan, estos son: el primero es el tipo de figura que representará cada observación, o sea, la forma del icono; el segundo parámetro es la forma en que se definirá la posición de cada icono en la imagen (Theisel 2000; Ward 2002). Entre los métodos para crear iconos están los rostros de Chernoff (Chernoff Face) y los campos de Estrellas (StarField). Además suelen crearse editores de iconos para aplicaciones específicas

52 (Theisel 2000; Salgado Milan 2003; Andrews 2005). Por otro lado, la solución más popular para la colocación de los iconos en la imagen está basada en el uso de proyecciones (Ward 2002) Las técnicas basadas en iconos se recomiendan cuando el número de variables es de entre 10 y 15 y el número de datos es alto. Las mismas se pueden utilizar con una referencia espacial. Estas técnicas no sufren de pérdida de información. Se logra evitar la pérdida de información al realizar una proyección de las dimensiones a diferentes atributos de un icono (Theisel 2000; Salgado Milan 2003). Al crear una imagen a partir de un conjunto de datos el resultado es un conjunto de figuras con diferentes características visuales.

Campo de Estrellas.

El campo de estrellas utiliza un algoritmo para componer los iconos, lo que le confiere cierta generalidad. En la forma básica el método utiliza dos dimensiones como coordenadas de posición en un eje imaginario (Theisel 2000; Andrews 2005). El resto de las dimensiones deben poder ser normalizadas al intervalo [0,1]. Estas coordenadas serán el punto de inicio en el dibujado del icono. Las dimensiones restantes se expresarán a partir de líneas que parten del punto inicial y cuya longitud estará determinada por el valor del atributo. Estas líneas o rayos que representan las diferentes dimensiones estarán dispuestos entre si con igual distancia angular lo que genera una figura de estrella. Frecuentemente los extremos de las líneas son conectados entre sí. Esta variación elimina la silueta de estrella y crea una figura cerrada que suele presentar más claramente las características del objeto (Erick 2000).

Todos los puntos del conjunto de datos pueden mostrarse con el mismo color pero resulta muy conveniente utilizar esta característica para codificar algún atributo de interés. Igualmente pueden utilizarse otros rasgos de la figura para codificar otras informaciones, como por ejemplo la calidad de los datos (Xie and A 2006).

53 La técnica de Campo de estrellas también sufre de limitaciones a pesar de sus ventajas. Una de ellas es que no todos los atributos visuales se perciben con igual intensidad. Esta dificultad influye directamente en el número de dimensiones que pueden ser representadas. Además, al crecer el conjunto de rayos de un icono aumenta la complejidad del análisis puesto que los diferentes puntos de datos comienzan a lucir similares. La conclusión es que esta técnica solo debe usarse cuando el número de dimensiones es relativamente pequeño (Xie and A 2006). Una cuestión de particular importancia en la técnica es la estrategia de posicionamiento del icono. En este proceso pueden usarse los datos de ciertas dimensiones, que en el caso más simple utiliza dos dimensiones y en caso de un número mayor requiere el uso de proyecciones. (Ward 2002)

2.2.4.3 Técnicas orientadas a píxel.

Se ha mencionado que la visualización de un conjunto de datos de gran tamaño resulta un reto para técnicas geométricas y basadas en iconos. Al graficarlos suele surgir desorden que esta originado por el tamaño de la figura que representa una observación simple. A partir de esta idea resulta lógico concluir que minimizando el espacio que ocupa un solo punto de datos en la imagen se mejoraría la percepción visual. (Yang and and Ward 2003; Andrews 2005; Charles Hansen 2005)

Las técnicas basadas en pixel son las más eficientes cuando el número de dimensiones es grande y cuando crece el número de registros. Esto se debe a que utilizan un pixel para representar cada atributo de una observación. Los retos fundamentales en estos métodos son la elección del color para cada elemento y el modo de posicionamiento de los pixeles (Keim 2002)

En este esquema el asunto principal es como colocar los píxeles en la imagen. Este tipo de técnicas utilizan diferentes modos de posicionamiento para lograr diferentes objetivos. Colocar los píxeles en la forma adecuada ofrece la posibilidad de observar información sobre

54 correlaciones, dependencias y regiones trascendentales. Dos modos de posicionamientos son: los Patrones Recursivos y Los Segmentos Circulares (Charles Hansen 2005)

Una vía sería relacionar cada valor de una dimensión a un color y agrupar los píxeles de cada dimensión en áreas adyacentes. Puesto que este método utiliza un píxel simple por cada valor de dato, la técnica permite mostrar hasta más de 1.000.000 de valores. (Keim 2002)

Patrones Recursivos:

Esta técnica se basa en un posicionamiento recursivo general de atrás hacia delante de los píxeles. Está particularmente dirigida a representar conjunto de datos con un orden natural de acuerdo a un atributo, propiedad que la convierte en una opción para problemas de series de tiempo (Theisel 2000; Keim 2002)

Segmentos Circulares

Esta técnica utiliza como imagen base un círculo que es dividido en segmentos iguales a partir del origen. Cada segmento corresponde a un atributo del conjunto de datos. Dentro de cada segmento el valor del atributo para cada registro de datos se representa con un píxel simple. La colocación de los píxeles comienza en el centro de la circunferencia y continúa hacia fuera dibujando sobre una línea ortogonal al segmento (Charles Hansen 2005).

En estas técnicas los únicos atributos visuales son la localización de los píxeles y la intensidad del color, de ahí que la elección del mismo sea un proceso de vital importancia, que requiere escalas de colores elegidas cuidadosamente para cada uno de los atributos.

La deficiencia fundamental de esta representación es la poca cantidad de atributos visuales, que convierte la tarea de codificar información adicional en un trabajo prácticamente imposible (Keim 2002; Ware 2004)

55 Figura 6 Segmentos Circulares.

En la actualidad existen servidores de mapas que se encargan de manejar toda la información espacial contenida en ellos a través de servicios web. Un ejemplo de ello es Geoserver el cual consta de tres servicios bien conocidos y muy utilizados sobre todo el entorno de la información geográfica. Estos servicios son:

• WMS (En inglés: Web Map Service ) • WFS (En inglés: Web Feature Service) • WCS (En inglés: Web Coverage Service) • WVS (En inglés: Web Visualization Service)

In document Aplicación Web para el análisis visual de datos multiparamétricos sobre SIG (página 60-68)