Integración de técnicas de visualización científica en SIG para el análisis de grandes volúmenes de datos

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación Ciencia de la Computación. Trabajo de Diploma. Integración de técnicas de visualización científica en SIG para el análisis de grandes volúmenes de datos.. Autor: Ruperto Aguila Delgado Tutor: MSc. Romel Vázquez Rodríguez.. Santa Clara 2013 I.

(2) Hago constar que el presente trabajo fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad.. ____________________ Firma del autor. Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. ____________________ Firma del tutor. ______________________ Firma del jefe del Laboratorio I.

(3) La ciencia no sirve sino para darnos una idea de cuan vasta es nuestra ignorancia. Félecité de Lamennais II.

(4) Dedicatoria. A mi papá que tanto me apoyó durante mis cinco años de carrera y no pudo ver el resultado de sus sacrificios.. III.

(5) Agradecimientos A mi mamá y mi papá por la educación que me ofrecieron y su apoyo en todo momento. A mi hermana por haberme ayudado a superar los momentos más tristes. A Romel por haber sido mi guía durante esta etapa. A los estudiantes y profesores de Computación Gráfica. A los profesores de la carrera en general que me han guiado y enseñado todo lo que sé. A toda mi familia por estar siempre al tanto de lo que acontece en mi vida y gracias a ella pude llegar hasta aquí. A Edel por la ayuda que nos ha brindado. A mis amigos de la carrera por el apoyo y los momentos divertidos que hemos pasado. Ruperto Aguila Delgado.. IV.

(6) RESUMEN 2013. Resumen El análisis de secuencias temporales de datos en forma de mallas regulares constituye un reto para científicos y analistas de diferentes disciplinas. Estos datos comúnmente contienen información en todo el dominio espacial y representan mediciones de diferentes variables. Diversas problemáticas deben resolverse para procesar y analizar toda esta información de manera consistente y efectiva. La mayoría de los métodos y herramientas actuales no permiten un análisis espacio-temporal de múltiples variables a la vez de manera efectiva. En este trabajo se aborda la problemática del análisis visual de secuencias temporales de variables climáticas en forma de mallas regulares que ocupan todo el espacio de análisis. Se propone una solución que posibilita la visualización espacio-temporal de múltiples variables a la vez. Mediante la utilización de técnicas de visualización científica para datos multiparamétricos se logra analizar eficazmente toda la información almacenada en las secuencias de datos. Los conceptos y métodos elaborados en este trabajo se implementaron como una extensión al Sistema de Información Geográfica gvSIG, demostrándose así la viabilidad de este enfoque para la extracción de información y conocimiento a partir de los datos originales. Se muestra un caso de estudio con datos climáticos mundiales que contienen 9 variables con 1224 registros mensuales de 1901-2002, la información está dada para las 67420 celdas que corresponden a la superficie terrestre del planeta, cada una de las celdas ocupa un área de 25km por 25km. Los datos fueron suministrados por la unidad de investigación climática de la Universidad del Este de Anglia, en el Reino Unido, el uso de las herramientas desarrolladas con estos datos posibilitó extraer importantes tendencias, correlaciones, y patrones relacionados con el cambio climático mundial. Se desarrolló además un módulo para la manipulación de formatos de datos científicos en gvSIG que permitió el almacenamiento de toda la información de forma compactada para una lectura efectiva.. V.

(7) ABSTRACT 2013. Abstract The analysis of temporal sequences of data in regular grids is a challenge for scientists and analysts from different disciplines. These data typically contain information throughout the spatial domain and represent measurements of different variables. Several problems must be solved to process and analyze all this information consistently and effectively. Most current methods and tools do not allow space-time analysis of multiple variables at once effectively. This paper addresses the problem of visual analysis of temporal sequences of weather variables in the form of regular grids that occupy the entire space of analysis. We propose a solution that enables space-time visualization of multiple variables at once. Throw the use of scientific visualization techniques for multiparameter data analysis all the information stored in data sequences is analyzed effectively. The concepts and methods developed in this paper were implemented as an extension to gvSIG GIS, thus demonstrating the feasibility of this approach for extracting information and knowledge from the original data. It shows a case study with global climate data containing 9 variables with 1224 monthly records from 1901-2002, information is given for the 67,420 cells that correspond to the Earth's land surface, each cell occupies an area of 25km by 25km. Data were provided by the Climatic Research Unit at the University of East Anglia in the UK, using developed tools with those data allowed extract important trends, correlations, and patterns related to global climate change. Also, a module for handling scientific data formats was developed for gvSIG, that allow storing all information in compact form for effective reading.. VI.

(8) ÍNDICE 2013 Tabla de contenido Introducción ........................................................................................................ 1 CAPÍTULO 1.. VISULIZACIÓN CIENTÍFICA Y SISTEMAS DE INFORMACIÓN GEOGRÁFICA 7. 1.1. Visualización Científica ........................................................................................................7. 1.2. Técnicas de Visualización Científica .................................................................................... 10. 1.3. Técnicas de visualización para datos multiparamétricos ..................................................... 11. 1.3.1. Técnicas geométricas ........................................................................................................................11. 1.3.2. Técnicas basadas en iconos ...............................................................................................................13. 1.3.3. Técnicas orientadas a píxel ................................................................................................................15. 1.3.4. Otros tipos de técnicas. .....................................................................................................................16. 1.4. Sistemas de Información Geográfica .................................................................................. 20. 1.4.1. ArcGIS ................................................................................................................................................21. 1.4.2. Grass GIS ............................................................................................................................................22. 1.4.3. Quantum GIS .....................................................................................................................................23. 1.4.4. gvSIG ..................................................................................................................................................23. 1.5. Integración de VisCi con SIG............................................................................................... 24. 1.5.1. Snap-Together Visualization ..............................................................................................................26. 1.5.2. GeoVista Studio .................................................................................................................................26. 1.5.3. VIS- STAMP ........................................................................................................................................27. 1.5.4. GAV Flash tools ..................................................................................................................................28. 1.5.5. ArcView - xGobi .................................................................................................................................28. 1.5.6. Formatos de datos científicos utilizados en la Visualización Científica .............................................28. 1.6. Conclusiones parciales....................................................................................................... 32. CAPÍTULO 2.. DISEÑO E IMPLEMENTACIÓN DEL MÓDULO DE VISUALIZACIÓN. . 33. 2.1. Análisis de actores y casos de uso ...................................................................................... 33. 2.2. Arquitectura general e interacción Usuario-Software ......................................................... 34. 2.3. Diseño de la extensión realizada a gvSIG ............................................................................ 36 VII.

(9) ÍNDICE 2013. 2.3.1. Diagramas de transición de estados ..................................................................................................39. 2.3.2. Diagramas de clases ..........................................................................................................................42. 2.4. Implementación de la extensión ........................................................................................ 49. 2.4.1. Selección de las tecnologías necesarias para la implementación .....................................................49. 2.4.2. Consideraciones sobre las técnicas implementadas .........................................................................51. 2.5. Guía para la adición de nuevas técnicas al paquete de visualización coordinada del módulo. de visualización de gvSIG.............................................................................................................. 53 2.6. Conclusiones parciales....................................................................................................... 54. CAPÍTULO 3.. Uso y validación del sistema. ..................................................... 55. 3.1. Uso del sistema. ................................................................................................................ 55. 3.2. General ............................................................................................................................. 55. 3.2.1. Matrices de Dispersión ......................................................................................................................59. 3.2.2. Caras de Chernoff ..............................................................................................................................62. 3.2.3. Mapas Auto-organizados...................................................................................................................65. 3.3. Caso de estudio: Análisis visual de datos climáticos mundiales. .......................................... 68. 3.3.1. Datos climáticos mundiales ...............................................................................................................68. 3.3.2. Validación del sistema. Detectar lo esperado. ..................................................................................70. 3.3.3. Validación del sistema. Descubrir lo inesperado. ..............................................................................73. 3.4. Conclusiones Parciales....................................................................................................... 77. CONCLUSIONES ................................................................................................. 78 RECOMENDACIONES.......................................................................................... 79 BIBLOGRAFÍA .................................................................................................... 80. VIII.

(10) LISTA DE FIGURAS 2013. Lista de Figuras Figura 1 Ejemplos de Técnicas de Visualización Geométricas. ....................................................................................12. Figura 2 Ejemplos de Técnicas de Visualización basadas en Iconos. ......................................................................................14 Figura 3 Ejemplos de Técnicas de Visualización orientadas a píxel. ............................................................................16 Figura 4 Ejemplos de otras Técnicas de Visualización. ................................................................................................18 Figura 5 Arquitectura del SOM ....................................................................................................................................20 Figura 6. Diagramas de casos de usos .........................................................................................................................33 Figura 7 Arquitectura general......................................................................................................................................35 Figura 8 Interacción del usuario con el software .........................................................................................................36 Figura 9 Modelo de dato, seleccionado para nuestro problema. ................................................................................38 Figura 10 Diagrama de transición de estados para el caso de uso visualizar de forma coordinada. ..........................40 Figura 11 Diagrama de clases de la vista para la visualización coordinada. ...............................................................42 Figura 12 Integración del paquete de visualización coordinada como una extensión de gvSIG. ................................44 Figura 13 Diagrama de las clases de configuración de las técnicas. ...........................................................................44 Figura 14 Diagrama de clases de las técnicas de visualización para la visualización coordinada. ..............................46 Figura 15 Relación de los paneles de configuración y los paneles de las técnicas. ......................................................47 Figura 16 Estructura del fichero HDF. ..........................................................................................................................48. IX.

(11) LISTA DE FIGURAS 2013. Figura 17 Clases que intervienen en la lectura de los ficheros y el manejo de los datos para la visualización coordinada. ..................................................................................................................................................................49 Figura 18 Creación de una vista de visualización coordinada. ...................................................................................56 Figura 19 Opciones para la adición de un proyecto de visualización coordinada a una vista de visualización. ........57 Figura 20 Vista de visualización. .................................................................................................................................58 Figura 21 Obtención de muestras del conjunto de datos. ............................................................................................59 Figura 22 Visualización con Matriz de Dispersión. .....................................................................................................60 Figura 23 Panel Configuración Matriz de Dispersión. ................................................................................................61 Figura 24 Leyenda de los valores de los atributos. ......................................................................................................62 Figura 25 Visualización con Caras de Chernoff ..........................................................................................................63 Figura 26 Panel Configuración Caras de Chernoff .....................................................................................................64 Figura 27 Panel para la reasignación de variables a facciones de las caras. .............................................................65 Figura 28 Visualización con Mapas Auto-organizados ...............................................................................................66 Figura 29 Panel de configuración de Mapas Auto-organizados. .................................................................................67 Figura 30 Panel para establecer nuevos pesos. ...........................................................................................................68 Figura 31 Visualización de diferentes puntos utilizando Patrón Recursivo. .................................................................71 Figura 32 Gráfico de Matrices de Dispersión asociado al Himalaya. ...........................................................................72 Figura 33 Visualización de diferentes puntos del territorio nacional utilizando Patrón Recursivo. .............................73 Figura 34 Visualización de Mapas Auto-organizados y Coordenadas Paralelas asociados a diferentes puntos del territorio nacional. .......................................................................................................................................................74 Figura 35 Visualización de Mapas Auto-organizados y Coordenadas Paralelas asociados al occidente. ...................76. X.

(12) INTRODUCCIÓN 2013 Introducción. En los últimos años las tecnologías de captura de datos espaciales han permitido contar con un volumen muy importante de información de excelente calidad y bajo costo: imágenes satelitales de alta resolución, navegadores GPS para realizar relevamientos de campo geo-referenciados, herramientas de software que administran, procesan y analizan esta información en forma gráfica y alfanumérica. Todo este conjunto de tecnologías, sumado a un equipo interdisciplinario de profesionales en las temáticas a abordar, más un diseño conceptual de la estructura de información a implementar, podemos denominarlo como un SIG (Sistemas de Información Geográfica) o GIS (por sus siglas en inglés). Existen definiciones variadas sobre: qué es un SIG, y en muchas se ha visto cierto nivel de confusión, ya que definen a un SIG en función del tipo de datos que administra o a la temática que aborda; es muy importante tener presente que un SIG sólo agrega la componente espacial de los datos, que probablemente ya tenemos sistematizados en un sistema de información tradicional. Existen muchas y variadas definiciones acerca de qué son los SIG. De hecho, podría afirmarse que hay casi tantas definiciones como autores que escriben sobre el mundo de los SIG (Puebla et al., 1994). En dependencia del contexto en que se utilicen, se sentirán más identificados con unas u otras. Así, mientras que para algunos los SIG son simplemente el medio para automatizar la producción de mapas, para otros esta aplicación parece banal en comparación con su complejidad asociada a la solución de problemas geográficos y el soporte a la toma de decisiones (Longley et al., 2005). Encontrar la forma más adecuada para referirse a ellos no es tarea fácil. Según el Centro Nacional de Información Geográfica y Análisis (NCGIA, por sus siglas en inglés), un SIG es un sistema de hardware, software y procedimientos elaborados para facilitar la obtención, gestión, manipulación, análisis, modelado, representación y salida de datos espacialmente referenciados, para resolver problemas complejos de planificación y gestión. Sin duda, se trata de una 1.

(13) INTRODUCCIÓN 2013. definición funcionalista en la que se reflejan, aparte de la tecnología, todos aquellos aspectos y partes que conforman un SIG. La Visualización Científica ha sido un área de interés creciente en los últimos años. El incremento constante de los volúmenes de datos generados en muchos campos de aplicación crea la necesidad de elaborar herramientas que permitan extraer información de estos datos de manera eficiente, así como generar imágenes cada vez más sofisticadas por el aumento sostenido de la potencia de las interfaces gráficas modernas. Junto al desarrollo de nuevas técnicas de visualización se han creado numerosas utilidades que emplean estas técnicas, tanto en forma de bibliotecas como de programas. En los últimos años, los avances en la tecnología han facilitado la obtención de grandes cantidades de información. Mediante imágenes de satélite, estaciones de medición de alta precisión, supercomputadoras o cualquier otra fuente de este tipo, se generan a diario volúmenes de datos muy grandes y complejos. Investigadores de la Universidad de Berkeley estimaron que cada año se genera cerca de 1 Exabyte (un millón de Terabytes) de datos, de los cuales la mayor parte está disponible en forma digital. Para el estudio de estos datos es necesario el uso de técnicas avanzadas debido a que no pueden ser analizados suficientemente bien en forma numérica. De todos los datos generados por entes especializados, solo una cuarta parte se almacena, y de éstos solo una cuarta parte realmente se analiza. Como se puede ver se pierden datos valiosos, de muchas informaciones importantes solamente se utiliza un pequeño por ciento. La ciencia siempre ha tratado de entender los fenómenos de la naturaleza. Sin embargo, estos fenómenos son a veces muy grandes, o muy pequeños, muy rápidos o muy lentos para ser estudiados con los métodos tradicionales. La visualización científica es una herramienta que permite a los científicos computacionales analizar, entender y comunicar los datos numéricos generados durante una investigación. La VisCi (Visualización Científica) según (MORELL et al., 2006) significa encontrar una representación visual apropiada para un conjunto de datos que permita mayor efectividad en el análisis y evaluación de los mismos. Según (Rhyne, 1997b) permite la transformación de los datos numéricos o simbólicos y la información en imágenes geométricas generadas por 2.

(14) INTRODUCCIÓN 2013. computadora. Es una metodología para interpretar, a través de una imagen en la computadora, tanto datos de mediciones como los generados por modelos computacionales. La investigación y el desarrollo de la VisCi se han centrado en cuestiones relacionadas con el renderizado de gráficos en tres dimensiones, animaciones de series temporales y visualización interactiva en tiempo real. Una clase especial de datos son los datos multiparamétricos (datos multidimensionales o datos multivariados). Los datos multiparamétricos son los que poseen m variables o dimensiones de datos escalares distribuidos sobre puntos en el espacio de observación. Estas variables pueden ser cuantitativas o cualitativas y a su vez ordinales o nominales (Hansen et al., 2005). La VisCi ofrece grandes ventajas sobre otros métodos de análisis de datos cuando los mismos poseen más de dos dimensiones o variables, puesto que permite la visualización de todas las variables que se deseen al mismo tiempo. A este tipo de visualización se le conoce como visualización de datos multiparamétricos. Por las ventajas señaladas anteriormente de los SIG y del VisCi en la visualización y análisis de grandes volúmenes de datos, una integración de estas dos tecnologías es muy provechosa para el trabajo con datos multiparamétricos. Con este trabajo se desea analizar datos multiparamétricos mediante técnicas de visualización científica que se agregarán a un SIG, el cual está desarrollado con software libre, lo que permite la reutilización de códigos. El mundo real no es estático, tanto componentes espaciales como no espaciales tienen que ver con el tiempo. Especialistas de muchas áreas de la ciencia visualizan, consultan y analizan la información recopilada a partir del mundo real para ayudar a la toma de decisiones. Esta información existe en el dominio espacial, el dominio temporal y en el dominio temático (Hogeweg, 2000). El dominio espacial es el encargado de analizar qué se mide o se encuentra en algún lugar. El dominio temporal se encarga de analizar qué se produce en algún momento o qué existe durante un cierto tiempo. El dominio temático es el que tiene que ver con el área de aplicación que se va a analizar en el espacio y el tiempo. Una de las ciencias que mejor se ajusta a la integración de los dominios espacial, temporal y temático es la meteorología. El análisis espacio-temporal en esta área se ha realizado históricamente mediante el uso de SIG, 3.

(15) INTRODUCCIÓN 2013. herramientas para el análisis de series temporales, paquetes estadísticos y geo-estadísticos y la animación en sistemas de visualización. En el laboratorio de Computación Gráfica del Centro de Estudios de Informática de la Universidad Central “Marta Abreu” de Las Villas se cuenta con series temporales de múltiples variables en forma de mallas regulares. Por ejemplo: la secuencia de datos climáticos mundiales publicada en la unidad de investigaciones climáticas de la universidad del Este de Anglia, en el Reino Unido (Mitchell et al., 2005), que contiene 9 variables climáticas con 1224 registros mensuales de 1901-2002, la información está dada para las 67420 celdas que corresponden a la superficie terrestre del planeta, cada una de las celdas ocupa un área de 25km por 25km. Planteamiento del problema El análisis exploratorio de grandes volúmenes de datos almacenados en múltiples variables con forma de mallas regulares constituye un reto. Se necesita visualizarlos con el objetivo de realizar comparaciones, identificar patrones, encontrar correlaciones, detectar anomalías, variabilidad y las diferentes tendencias que se pueden presentar en las variables a lo largo del tiempo, teniendo en cuenta su ubicación espacial. Dado que existen múltiples formatos para el almacenamiento de grandes volúmenes de datos, la cantidad de técnicas de VisCi existentes y las particularidades de los SIG, se formularon varias Preguntas de Investigación:  ¿Cuál es el formato de datos científicos más adecuado para almacenar grandes volúmenes de datos espacio-temporales?  ¿Cuáles son las técnicas de VisCi (Visualización Científica) para datos multiparamétricos que brindan un mejor análisis visual de datos espacio-temporales?  ¿Qué modificaciones se deben realizar a las aplicaciones desarrolladas con anterioridad para la solución de esta problemática?  ¿Qué hipótesis o correlaciones se pueden extraer de los datos a través de las técnicas de visualización seleccionadas? 4.

(16) INTRODUCCIÓN 2013  ¿Cuáles son las mejores situaciones en las que se pueden utilizar las herramientas desarrolladas para demostrar la efectividad de usar las técnicas seleccionadas? Teniendo en cuenta la problemática planteada y las preguntas de investigación se plantearon los siguientes objetivos: Objetivo general Implementar nuevas técnicas de visualización científica al Sistema de Información Geográfica gvSIG para el análisis de grandes volúmenes de datos multiparamétricos amplios en el tiempo y en el espacio, como es el caso de los datos climáticos mundiales publicados en la unidad de investigaciones climáticas de la universidad del Este de Anglia, en el Reino Unido (Mitchell et al., 2005). Objetivos Específicos  Analizar los distintos formatos de datos científicos para el almacenamiento de grandes volúmenes de datos y seleccionar el formato más adecuado para añadir al gvSIG.  Analizar las técnicas de visualización de grandes volúmenes de datos espaciotemporales y seleccionar las más adecuadas para añadirlas al gvSIG.  Implementación de las técnicas de visualización espacio-temporales seleccionadas para su incorporación en el módulo de visualización de datos multiparamétricos de gvSIG.  Extraer información de los datos analizados mediante las técnicas de visualización científica. Justificación de la investigación Actualmente existen diversos formatos de datos científicos para almacenar grandes volúmenes de información, lo cual obliga a realizar una investigación para ver sus ventajas y desventajas y seleccionar entre todos el que más se adapte al propósito descrito. Además es necesario elegir las técnicas de visualización que faciliten el análisis espacio-temporal de los datos existentes. 5.

(17) INTRODUCCIÓN 2013. Estas técnicas seleccionadas se visualizarán sobre el lugar que se quiere analizar y en caso de que la técnica no pueda ser visualizada sobre el mapa, podrán ser mostradas de manera independiente, siempre y cuando se sepa a qué localización corresponden. Estas ideas podrán ser aplicadas en cualquier tipo de problemas que contengan información multivariada de datos puntuales en el espacio. Viabilidad de la investigación El estado actual de las técnicas de VisCi y el desarrollo de los SIG ofrece una amplia gama de ideas a exponer en este trabajo. Para el desarrollo de esta investigación se cuenta con los recursos necesarios para acometer las tareas propuestas, que incluyen los datos meteorológicos, los códigos fuentes de los SIG, la información cartográfica y la capacidad de procesamiento de datos y de gráficos. Por otro lado se cuenta con el apoyo del grupo de investigación Computación Gráfica del Centro de Estudios de Informática, que tiene suficiente experiencia en el área. Hipótesis general La utilización de un formato de dato científico para almacenar grandes volúmenes de datos multiparamétricos permite reducir su tamaño en disco y mejorar el trabajo con estos. La integración de técnicas de VisCi con SIG en una misma aplicación permite visualizar una gran cantidad de información multivariada amplia en el tiempo e interactuar con la misma a través de las diferentes técnicas, asociándolas a lugares puntuales en el espacio.. 6.

(18) CAPÍTULO I 2013 CAPÍTULO 1. VISULIZACIÓN CIENTÍFICA Y SISTEMAS DE INFORMACIÓN GEOGRÁFICA 1.1 Visualización Científica La visualización es la formación de imágenes visuales. Como lo define J. Foley (Foley, 1999), es la disposición de datos en representaciones que pueden ser percibidas. Los tipos de disposiciones pueden ser visuales, auditivos, táctiles, etc, o una combinación de estos. La visualización por computadora es un proceso de distribución de las representaciones hechas por la computadora a representaciones preceptúales, eligiendo técnicas de codificación para maximizar el entendimiento y comunicación con los seres humanos. Hay tres partes importantes en un sistema de visualización.  Construcción de un modelo empírico de los datos: Este modelo puede tener consideraciones sobre teoría del muestreo y esquemas de interpolación matemática. También se debe tomar en cuenta la probabilidad de que haya errores en los datos.  Selección de esquemas: Significa tomar como modelo un objeto de visualización abstracta (un mapa por ejemplo).  La representación de la imagen en un ambiente gráfico. La visualización científica es un área de gran importancia en la computación. Al igual que en otras áreas, gracias al avance del software y al abaratamiento del hardware, se han hecho grandes avances en visualización. La ciencia ha desarrollado diversos métodos para la obtención de información, y uno de ellos se basa en la creación de imágenes a partir de los datos. Este método, conocido como visualización, ha sido utilizado como vía natural para mostrar información (Hansen et al., 2005). Recientes investigaciones han impulsado en gran medida este campo mediante el uso de la computación, motivado fundamentalmente por el incremento constante de los volúmenes de datos generados en muchos campos de aplicación, así como por el aumento sostenido de la potencia de las interfaces gráficas modernas, que permiten generar imágenes cada vez más sofisticadas. 7.

(19) CAPÍTULO I 2013. La visualización científica es la transformación de datos científicos y abstractos en imágenes. Es una forma especial de la visualización que procura encontrar una representación visual apropiada para un conjunto de datos que permita mayor efectividad en el análisis y evaluación de los mismos. Simplifica el análisis, comprensión y la comunicación de modelos, conceptos y datos en la ciencia y la ingeniería. Usualmente cuando se almacenan los datos se incluyen varios parámetros, resultando datos multidimensionales con un alto nivel de dimensionalidad. Buscar información valiosa en ellos es una tarea difícil. Con los sistemas actuales de administración de datos solo es posible ver porciones muy pequeñas de estos. Si los datos son presentados textualmente la cantidad de estos que pueden ser mostrados está en el rango de algunos cientos de ítems de datos, pero es como una "aguja en un pajar" cuando se trata con conjuntos de datos que contengan millones de ítems de datos. No teniendo la posibilidad de explorar adecuadamente las grandes cantidades de datos que han sido coleccionadas debido a su utilidad potencial, se tornan inservibles y las bases de datos en "almacenes" de datos". La visualización facilita el entendimiento a pequeña y gran escala de características de los datos. Simplifica el análisis y la comunicación de modelos y conceptos. Emplea las potencialidades del sistema visual que es un buscador de patrones de extrema fuerza y sutileza. El hecho de que el resultado sea una imagen posibilita una mayor comprensión, claridad y aprovechamiento de este. Se estima que el 50% de las neuronas está dedicado a la visión. Además, la densidad de información por unidad de área en una imagen es notablemente mayor a la de un texto. Por otro lado, la visualización nos permite observar lo que "no es posible ver directamente", debido, entre otras razones, al gran volumen de los datos o a que estos no tengan una representación gráfica asociada. Posibilita a las personas la interacción directa con los datos. La visualización puede ser hecha sin mayor dificultad en datos no homogéneos o que no se conozca detalladamente su estructura. La exploración visual es intuitiva, no requiere de complicados conocimientos matemáticos, estadísticos o de otra índole. Otra gran ventaja consiste de la visualización de datos es la gran cantidad de conocimiento que puede ser rápidamente interpretado. 8.

(20) CAPÍTULO I 2013. La visualización de datos permite alcanzar diferentes metas. La naturaleza del objetivo que se desee está en relación directa al conocimiento que se tenga sobre los datos iniciales. Los objetivos pueden ser los siguientes (Theisel, 2000; Abello et al., 2002)  Análisis exploratorio.  Análisis confirmativo.  Presentación de información. El Análisis exploratorio: se tiene un conjunto de datos sin una hipótesis específica. Estos se someten a un proceso de búsqueda interactiva de información que va a arrojar como resultado una visualización que soporte una hipótesis sobre el conjunto de datos. El Análisis confirmativo: se tiene un conjunto de datos sobre los que se plantea una hipótesis. Se realiza un procesamiento de los mismos que genera una visualización mediante la cual se pueda validar o refutar la hipótesis que se tenía de ellos. La Presentación de información: parte de hechos que son fijos a priori y que se desean enfatizar y mostrar con extrema calidad. El análisis exploratorio y el confirmatorio incluyen el análisis estadístico de los datos, la simulación y la educación. Dentro del área del análisis existen aplicaciones para el control de calidad, análisis y proyecciones financieras, análisis de esfuerzos, etc. Esta última podría considerarse dentro del área de simulaciones, junto con la de modelos atmosféricos. En cuanto a la educación, se tienen desde demostraciones matemáticas, hasta modelos de física cuántica y planetarios. El análisis visual de datos es un nuevo enfoque que se puede utilizar con cualquiera de los objetivos anteriores. Como se ha mencionado anteriormente, integra tanto la percepción humana como los métodos computacionales automáticos, lo que permite una mejor comprensión y análisis de grandes y complejos conjuntos de datos.. 9.

(21) CAPÍTULO I 2013 1.2 Técnicas de Visualización Científica Diversos enfoques se han empleado para agrupar y clasificar las diversas técnicas de VisCi existentes. Un enfoque establecido para clasificar las técnicas es a través del tipo de dato sobre el que opera. Por el tipo de dato se refiere al tipo al que pertenecen los atributos o variables. Atendiendo a este criterio se encuentran las siguientes categorías (Theisel, 2000; Hansen et al., 2005):  Técnicas de visualización para datos volumétricos.  Técnicas de visualización para fluidos.  Técnicas de visualización para datos multiparamétricos.  Técnicas de visualización de la información. Existen diversos enfoques para especificar los datos. Estos permiten definir una serie de características de los datos como son la dimensionalidad, la estructura y el nivel de medición. En este trabajo se utiliza un enfoque sencillo para definir los datos. Los datos volumétricos representan una malla de tres dimensiones donde cada punto tiene asociado un valor. En general los datos se definen como un conjunto S de muestras, en que cada elemento s Є S es un vector de la forma (x, y, z, v) que contiene las coordenadas espaciales y un elemento que es un escalar (Theisel, 2000; Hansen et al., 2005). Los campos vectoriales representan una malla de dimensión menor o igual que tres donde cada punto está relacionado con un vector. Una de las áreas de mayor uso de los campos vectoriales es para representar datos de fluidos (Hansen et al., 2005). Los datos multiparamétricos son aquellos en que el número de variables relacionadas con cada observación es mayor o igual que dos. Estas variables pueden ser cuantitativas o cualitativas y a su vez ordinales o nominales (Hansen et al., 2005). En algunas aplicaciones los datos presentan una estructura que no concuerda con ninguna de las anteriores o que sencillamente no puede ser definida con exactitud. A estos datos se les suele 10.

(22) CAPÍTULO I 2013. llamar información y entre las principales se identifican estructuras como árboles, grafos e hipertexto (Theisel, 2000; Keim, 2002b; Hansen et al., 2005). Este trabajo se centró en el desarrollo de técnicas de visualización de datos multiparamétricos. Es por ello que se hace mayor énfasis en este tipo de técnicas, las cuales son descritas a continuación.. 1.3 Técnicas de visualización para datos multiparamétricos Existen una serie de problemas en que cada punto de dato contiene más de un atributo, estos atributos pueden ser fechas, precios o valores descriptivos. A este tipo de datos se les llama multiparamétricos y se encuentran generalmente en aplicaciones de minería de datos, estadísticas e inteligencia artificial (Keim, 2002b). Los datos multiparamétricos, también llamados multidimensionales o datos n-dimensionales, consisten en un número de n registros donde cada uno está definido por un vector de d valores. Estos datos pueden ser vistos como una matriz de nxd, donde cada fila representa un registro y cada columna representa una observación, variable o dimensión (Ward, 2008). El objetivo fundamental de los métodos de visualización para datos multiparamétricos es lograr que las representaciones revelen correlaciones o patrones entre los atributos (Theisel, 2000; Eick, 2000; Keim, 2002b). Con este fin existe actualmente una amplia gama de técnicas de visualización, para las cuales se han creado además diversas mejoras. Las técnicas pueden ser clasificadas en geométricas, basadas en iconos, basadas en píxel y proyecciones (Theisel, 2000; Keim, 2002b) entre otras. 1.3.1 Técnicas geométricas Las técnicas geométricas son aquellas que utilizan elementos como puntos, líneas o curvas como propiedades visuales para representar los datos (Theisel, 2000; Keim, 2002b). Existe un gran número de ellas, las visualizaciones geométricamente transformadas pretenden encontrar patrones "interesantes" en conjuntos de datos multidimensionales. Esta clase de métodos incluyen: las técnicas de exploración estadísticas (por ejemplo, ver,(Theus, 2005)) tales como matrices de Diagramas de Dispersión (Andrews, 1972; Cleveland, 1993) Figura 1-D y las 11.

(23) CAPÍTULO I 2013. técnicas que pueden incluirse bajo el término projection pursuit (Huber, 1985). Otras de las técnicas geométricas son Prosections Views (Furnas et al., 1994; Spence et al., 1995) Figura 1-A, Hyper Slices (Wijk et al., 1993) Figura 1-B, Parahistogramas(Ong et al., 1996), Landscapes (Wright, 1995) Figura 1-C, Star Coordinates (Kandogan, 2000), pero hay tres que sobresalen por su generalidad y gran uso, estas son los anteriormente mencionados Diagramas de Dispersión, Coordenadas Paralelas (Inselberg et al., 1990; Cleveland, 1993; Keim, 2002b; Cui et al., 2006) Figura 1-E y Gráfico de Andrews (Andrews, 1972) Figura 1-F.. Figura 1 Ejemplos de Técnicas de Visualización Geométricas.. Diagramas de Dispersión El Diagrama de Dispersión es una técnica sencilla muy utilizada. Su forma más simple se manifiesta cuando los datos poseen solo dos dimensiones. Con dos dimensiones la técnica 12.

(24) CAPÍTULO I 2013. consiste en trazar dos ejes de coordenadas y utilizar los valores de las dimensiones como puntos (x, y) de R2, resultando un gráfico donde se encuentran dispersos los puntos de datos. Para visualizar datos de más de dos dimensiones pueden utilizarse proyecciones, que provocan pérdida de información debido a la reducción de la dimensión (Theisel, 2000; Keim, 2002b; Hansen et al., 2005). Para datos multiparamétricos es muy frecuente utilizar matrices de diagramas de dispersión. Las matrices resultantes son cuadradas y el elemento (i, j) de la matriz es un diagrama de dispersión de la dimensión i y la j. El diseño evita la pérdida de información pero en cambio los análisis complejos son engorrosos. Una deficiencia adicional es que la diagonal principal de la matriz es subutilizada. Algunos trabajos actuales están encaminados a aprovechar mejor esta región de la representación (Cui et al., 2006). 1.3.2 Técnicas basadas en iconos Las técnicas basadas en iconos visualizan datos multidimensionales mediante la asignación de cada objeto de datos sobre valores de los parámetros en pequeñas gráficas primitivas. Normalmente, los valores de los atributos están representados por la x e y posición del icono así como la longitud, el ángulo o forma de algún componente cónico. Para lograr un buen resultado, los componentes dentro de un icono deben ser distinguibles, iconos separados deben ser claramente identificables y los iconos deben ser percibidos como distintos si difieren en algunos de los componentes. Las técnicas basadas en iconos tienen dos parámetros que la caracterizan. El primero es el tipo de figura que representará cada observación, o sea, la forma del icono; el segundo parámetro es la forma en que se definirá la posición de cada icono en la imagen (Theisel, 2000; Ward, 2002). Estas técnicas no sufren de pérdida de información. Se logra evitar la pérdida de información al realizar una proyección de las dimensiones a los diferentes rasgos del icono (Theisel, 2000). Las técnicas basadas en iconos son recomendadas cuando el número de dimensiones oscila entre diez y quince y el número de mediciones de las mismas es alto. Estas técnicas se pueden utilizar con una referencia espacial. 13.

(25) CAPÍTULO I 2013. Ejemplos de técnicas de basadas en icono son: Caras de Chernoff (Chernoff, 1973) Figura 2-A, los Iconos de Flechas o Needle Icons (Keim, 2000; Abello et al., 2002), Iconos de Estrellas (Ward, 1994), Figuras con Palitos Stick Figure Icons (Pickett, 1970; Pickett et al., 1988) Figura 2-B, Iconos de Colores (Levkowitz, 1991; Keim et al., 1994) Figura 2-C, Iconos de Barras TileBars (Hearst, 1995), Shape Coding (Beddow, 1990) Figura 2-F, Profile Glyphs (Chen et al., 2008) Figura 2-E y Starfield (Eick, 2000; Keim, 2002a; Ward, 2002; Xie et al., 2006) Figura 2D.. Figura 2 Ejemplos de Técnicas de Visualización basadas en Iconos.. Caras de Chernoff Este tipo de diagrama surge como respuesta a la facilidad que tiene las personas para reconocer y clasificar a otras personas por sus rostros, gracias a la capacidad de percepción se tiene. Esta capacidad de percepción es la que se desea explotar con los diagramas de Chernoff, los que usan 14.

(26) CAPÍTULO I 2013. representaciones de rostros de tipo trazos, los cuales a través del tamaño de los ojos, nariz, orejas y boca, agregándosele su forma o curvatura, incluso de la misma cabeza, permiten combinar los diferentes atributos de los datos multivariados en un único símbolo. 1.3.3 Técnicas orientadas a píxel La visualización de un conjunto de datos de gran tamaño resulta un reto para técnicas geométricas y basadas en iconos. Al graficarlos suele surgir desorden en la imagen, que está originado por el tamaño de la figura que representa una observación simple. Partiendo de esta idea resulta lógico concluir que minimizando el espacio que ocupa un solo punto de dato en la imagen se mejoraría la percepción visual (Hansen et al., 2005; Andrews, 2005). La idea básica de las técnicas orientadas a pixel es para asignar cada valor de atributo a un píxel coloreado y para presentar los valores de los atributos que pertenecen a cada uno de los atributos en regiones separadas de la pantalla (Keim, 1995; Keim, 1996). El color de un píxel se calcula mediante la asignación del valor de atributo correspondiente en una escala de color generado por el modelo de color HSI, que es una ligera variación del modelo de color HSV. Las primeras técnicas se han centrado en el apoyo a la exploración de datos y análisis de datos, proporcionando consulta dependientes de visualizaciones de los datos. Los retos fundamentales en estos métodos son la elección del color para cada elemento y el modo de posicionamiento de los píxeles (Keim, 2000; Keim, 2002a) El procedimiento en las técnicas basadas en píxel consiste en relacionar cada valor de una dimensión a un color y agrupar los píxeles de cada dimensión en áreas adyacentes. Puesto que este método utiliza un píxel simple por cada valor de dato, la técnica permite mostrar hasta más de un millón de valores (Keim, 2002a). Este tipo de técnicas utilizan diferentes modos de posicionamiento de los píxeles para lograr diferentes objetivos. Colocar los píxeles en la forma apropiada ofrece la posibilidad de observar información sobre correlaciones, dependencias y regiones trascendentales. Dos de los modos de posicionamiento de los píxeles son los Patrones Recursivos (Keim et al., 1995) Figura 3-A y los Segmentos de Círculo(Ankerst et al., 1996; Keim, 2000; Hansen et al., 2005) Figura 3-B. 15.

(27) CAPÍTULO I 2013. Otros ejemplos de técnicas orientadas a píxel son Spiral Technique (Keim et al., 1994) Figura 3C, y Axes Technique (Keim et al., 1994) Figura 3-D.. Figura 3 Ejemplos de Técnicas de Visualización orientadas a píxel.. 1.3.4 Otros tipos de técnicas.. 16.

(28) CAPÍTULO I 2013. Existen muchas otras formas de visualizar datos que permitan extraer información relevante de estos. Ejemplo de estas son las técnicas basadas en ejes como la Rueda de Tiempo (Time Wheel) (Tominski et al., 2004; Aigner et al., 2008) Figura 4-A, su idea básica es presentar el eje de referencia (tiempo en este caso) en el centro de la pantalla, y circularmente organizar los ejes en función a su alrededor. Parcelas Múltiples (Multi Comb) (Abello et al., 2002) Figura 4-B, su objetivo básico es alinear los datos por parcelas de manera circular. Las parcelas de datos están formadas por la información de una variable con respecto al tiempo. Otros ejemplos son la visualización de Río Temático (Figura 4-C) que es de gran utilidad para ver la variación de datos en una gran colección de información. Los cambios son mostrados en el contexto de una línea de tiempo. Los cambios en la imagen permiten al usuario discernir patrones más fácilmente y analizar la relación entre los datos.. 17.

(29) CAPÍTULO I 2013. Figura 4 Ejemplos de otras Técnicas de Visualización.. Mapas Auto-organizados Los mapas auto-organizados (Figura 4-D) o redes de Kohonen (SOM por sus siglas en inglés, Self-Organizing Map ) fueron introducidos por el profesor finlandés Teuvo Kohonen en los artículos(Kohonen, 1982, 1990; Kaski et al., 1998). Un Mapa Auto-organizado es una. 18.

(30) CAPÍTULO I 2013. herramienta que analiza datos en muchas dimensiones con relaciones complejas entre ellos y los presenta en una visualización sencilla en sólo dos dimensiones. La propiedad más importante de SOM es que preserva las propiedades topológicas de los datos, es decir, que datos próximos aparecen próximos en la visualización. Este tipo de red posee un aprendizaje no supervisado competitivo. La red auto-organizada debe descubrir rasgos comunes, regularidades, correlaciones o categorías en los datos de entrada, e incorporarlos a su estructura interna de conexiones. Se dice, por tanto, que las neuronas deben auto-organizarse en función de los estímulos (datos) procedentes del exterior. En el aprendizaje competitivo las neuronas compiten unas con otras con el fin de llevar a cabo una tarea dada. Se pretende que cuando se presente a la red un patrón de entrada, sólo una de las neuronas de salida (o un grupo de vecinas) se active. Por tanto, las neuronas compiten por activarse, quedando finalmente una como neurona vencedora y el resto anuladas, que son forzadas a sus valores de respuesta mínimos. Arquitectura del SOM Un modelo SOM está compuesto por dos capas de neuronas. La capa de entrada (formada por N neuronas, una por cada variable de entrada) se encarga de recibir y transmitir a la capa de salida la información procedente del exterior. La capa de salida (formada por M neuronas) es la encargada de procesar la información y formar el mapa de rasgos. Normalmente, las neuronas de la capa de salida se organizan en forma de mapa bidimensional como se muestra en la Figura 5.. 19.

(31) CAPÍTULO I 2013. Figura 5 Arquitectura del SOM. Las conexiones entre las dos capas que forman la red son siempre hacia delante, es decir, la información se propaga desde la capa de entrada hacia la capa de salida.. 1.4 Sistemas de Información Geográfica Un Sistema de Información Geográfica (SIG o GIS, en su acrónimo inglés Geographic Information System) es una integración organizada de hardware, software y datos geográficos diseñada para capturar, almacenar, manipular, analizar y desplegar en todas sus formas la información geográficamente referenciada con el fin de resolver problemas complejos de planificación y gestión geográfica (Chrisman et al., 1989). También puede definirse como un modelo de una parte de la realidad referido a un sistema de coordenadas terrestre y construido para satisfacer unas necesidades concretas de información. En el sentido más estricto, es cualquier sistema de información capaz de integrar, almacenar, editar, analizar, compartir y mostrar la información geográficamente referenciada. En un sentido más genérico, los SIG son herramientas que permiten a los usuarios crear consultas interactivas, analizar la información espacial, editar datos, mapas y presentar los resultados de todas estas operaciones. Los SIG son herramientas cartográficas que permiten la creación de mapas en tiempo real y el análisis de los impactos de los cambios en el mapa de forma interactiva (Rhyne, 1997a). 20.

(32) CAPÍTULO I 2013. El SIG funciona como una base de datos con información geográfica (datos alfanuméricos) que se encuentra asociada por un identificador común a los objetos gráficos de un mapa digital. De esta forma, señalando un objeto se conocen sus atributos e, inversamente, preguntando por un registro de la base de datos se puede saber su localización en la cartografía. La razón fundamental para utilizar un SIG es la gestión de información espacial. El sistema permite separar la información en diferentes capas temáticas y las almacena independientemente, permitiendo trabajar con ellas de manera rápida y sencilla, facilitando al profesional la posibilidad de relacionar la información existente a través de la topología de los objetos, con el fin de generar otra nueva que no podríamos obtener de otra forma. Las principales cuestiones que puede resolver un Sistema de Información Geográfica, ordenadas de menor a mayor complejidad, son:  Localización: preguntar por las características de un lugar concreto.  Condición: el cumplimiento o no de unas condiciones impuestas al sistema.  Tendencia: comparación entre situaciones temporales o espaciales distintas de alguna característica.  Rutas: cálculo de rutas óptimas entre dos o más puntos.  Pautas: detección de pautas espaciales.  Modelos: generación de modelos a partir de fenómenos o actuaciones simuladas. Son muchas las ventajas que se pueden obtener de los SIG por las múltiples aplicaciones en que se pueden emplear. A continuación se abordan un conjunto de SIG que son los más utilizados. 1.4.1 ArcGIS ArcGIS es el nombre de un conjunto de productos de software en el campo de los Sistemas de Información Geográfica o SIG. Producido y comercializado por ESRI, bajo el nombre genérico ArcGIS se agrupan varias aplicaciones para la captura, edición, análisis, tratamiento, diseño, publicación e impresión de información geográfica. Estas aplicaciones se engloban en familias temáticas como ArcGIS Server, para la publicación y gestión web, o ArcGIS Móvil para la 21.

(33) CAPÍTULO I 2013. captura y gestión de información en campo. Este es un software propietario y para su utilización es necesario pagar una licencia. Es un software GIS para visualizar, crear, manipular y gestionar información geográfica, estos corresponden a lugares, direcciones, posiciones en terreno, áreas urbanas y rurales; regiones y cualquier tipo de ubicaciones en terrenos determinados. Esta información es trabajada de manera sistémica, lo que representa una diferencia sustancial a lo relacionado al trabajo con información planos y mapas, permitiendo explorar, ver y analizar los datos según parámetros, relaciones y tendencias que presenta la información, teniendo como resultado nuevas capas de información, mapas y nuevas bases de datos. Tiene una interfaz gráfica amigable, en la cual se puede desplegar de manera rápida la información geográfica. El aprendizaje del software es rápido, teniendo algunos conocimientos de Sistemas de Información Geográfica previos, junto a lo anterior, contiene una gran ayuda en línea. Con ArcView GIS se puede construir los mapas dinámicos e inteligentes que permiten visualizar patrones, tendencias y singularidades en sus datos. Arc View GIS incluye formas fáciles de levantar mapas, formatos predefinidos de mapas y una librería de elementos extensa, que permiten elaborar mapas de calidad rápidos y como el usuario desee. 1.4.2 Grass GIS GRASS GIS, comúnmente conocida como GRASS (Geographic Resources Analysis Support System), es un sistema libre de Información Geográfica (SIG) utilizado para la gestión y el análisis de datos geoespaciales, procesamiento de imágenes, producción de gráficos y mapas, modelado espacial y visualización. GRASS GIS se utiliza actualmente en los ambientes académicos y comerciales en todo el mundo, así como por muchas agencias gubernamentales y empresas de consultoría ambiental. GRASS GIS es un proyecto oficial de la Open Source Geospatial Foundation (OSGeo). GRASS es un programa completamente modular, es decir se basa en más de 350 módulos y herramientas que ejecutan tareas concretas y simples. Cuando se ejecuta GRASS no se carga un gran programa en memoria, sino que simplemente se cargan una serie de nuevas variables de 22.

(34) CAPÍTULO I 2013. entorno que permiten el acceso a los datos y a los módulos de GRASS. Estos incluyen herramientas para el manejo de información en formatos raster y vectorial así como mapas de puntos, herramientas para el análisis de imágenes de satélite, para el enlace a bases de datos y paquetes estadísticos GIS, así como para la de gráficos(Theisel, 2000; Keim, 2002b; Hansen et al., 2005). Existe embargo una Interfaz Gráfica de Usuario basada en Tcl-Tk. Existe también una versión experimental de GRASS para Windows NT/2000 corriendo Cygwin. La ventaja del trabajo en línea de comando es que los diferentes módulos de GRASS pueden integrarse en scripts utilizando la shell, lo que permite a usuarios y programadores crear nuevas aplicaciones y enlazar GRASS con otros paquetes de software. Existe además una API para C, incluyendo más de 800 librerías, completamente documentada que permite el desarrollo de nuevos módulos directamente en lenguaje C. Puesto que GRASS se encuentra disponible bajo licencia GNU GPL, el usuario recibe el código fuente así como una completa librería de desarrollo de SIG que puede utilizarse para crear nuevos programas. Se dispone también de un Manual del programador de GRASS. 1.4.3 Quantum GIS Quantum GIS (o QGIS) es un Sistema de Información Geográfica (SIG) tipo escritorio, muy intuitivo y fácil de utilizar. Su licencia es GNU, y por tanto se trata de código libre. Es multiplataforma y se puede encontrar versiones para diferentes sistemas operativos: GNU/Linux, Unix, Mac OS y Microsoft Windows. Era uno de los primeros ocho proyectos de la Fundación OSGeo y en 2008 oficialmente graduó de la fase de incubación. Permite manejar formatos raster y vectoriales a través de las bibliotecas GDAL y OGR, así como bases de datos. Una de sus mayores ventajas es la posibilidad de usar Quantum GIS como GUI del SIG GRASS, utilizando toda la potencia de análisis de este último en un entorno de trabajo más amigable. QGIS está desarrollado en C++, usando la biblioteca Qt para su interfaz gráfica de usuario. 1.4.4 gvSIG gvSIG (Generalitat Valenciana SIG) surge como un proyecto amparado por la Generalitat Valenciana de España a finales de 2003, es un Sistema de Información Geográfica (SIG) 23.

(35) CAPÍTULO I 2013. conocido por tener una interfaz amigable. Cuenta con una amplia gama de herramientas para trabajar con información geográfica como herramientas de consulta, la creación de diseño, geoprocesamiento, redes, etc, lo que convierte gvSIG en la herramienta ideal para usuarios que trabajan en el reino de la tierra. gvSIG es conocido por:  La integración en la misma vista datos tanto locales como remotos a través de estándares OGC.  Siendo diseñado para ser fácilmente extensible, lo que permite la mejora continua de las aplicaciones, así como permitir el desarrollo de soluciones a medida. Es un programa informático para el manejo de información geográfica con precisión cartográfica que se distribuye bajo licencia GNU GPL v2. Permite acceder a información vectorial y rasterizada así como a servidores de mapas que cumplan las especificaciones del OGC. Esta es una de las principales características de gvSIG respecto a otros Sistema de Información Geográfica, la importante implementación de servicios OGC: WMS (Web Map Service), WFS (Web Feature Service), WCS (Web Coverage Service), Servicio de Catálogo y Servicio de Nomenclátor. Este SIG posee las aplicaciones traducidas a veinte idiomas; toda la documentación está disponible en 5 idiomas, incluyendo español e inglés, por lo que se ha convertido en un SIG muy popular en el mundo hispano (Anguix, 2009) 1.5. Integración de VisCi con SIG. A finales de los años ochenta y principio de los noventa la VisCi y los SIG se desarrollaron en paralelo y de forma independiente (Rhyne, 1997b). Los esfuerzos para desarrollar estándares de datos espaciales rara vez consideraron la forma en que estos se visualizaban. Las bibliotecas gráficas y los estándares evolucionaron independientemente de los modelos de datos. Como resultado de esto se evidenciaron muchas ineficiencias asociadas con la visualización de datos geográficos. Entre ellas se incluyen dificultades con el registro de los datos espaciales dentro de Sistemas de Visualización Científica, engorrosas producciones de secuencias de animaciones en 24.

(36) CAPÍTULO I 2013. SIG y quizás la más importante, la falta de conexión entre bases de datos y los ambientes de visualización que soportaban la visualización de datos espaciales (Hearnshaw et al., 1994). Los desarrolladores de herramientas SIG y de VisCi hicieron esfuerzos para ampliar e integrar sus sistemas (Rhyne et al., 1994). Los desarrolladores de SIG estudiaron la forma de incorporar las capacidades de la animación de series de tiempo en tres dimensiones en su software. Los desarrolladores de herramientas de VisCi comenzaron la construcción de lectores de datos que soportaban los formatos de datos espaciales como modelos digitales de elevación, así como formatos de SIG comerciales. Al examinar estos esfuerzos fueron definidos cuatro niveles de métodos de integración entre SIG y VisCi: rudimentario, operacional, funcional y mezclado (Rhyne, 1997a). El enfoque rudimentario utiliza una mínima integración de datos e intercambio entre las dos tecnologías. El nivel operacional proporciona coherencia entre los datos mientras se eliminan las redundancias entre las dos tecnologías (Cook et al., 1997). La forma funcional intenta proporcionar una comunicación transparente entre los entornos de software correspondientes (Mitas et al., 1997). El enfoque mezclado se refiere al desarrollo de sistemas donde los conceptos de cartografía, SIG y VisCi se funden en una única herramienta. El nivel rudimentario de intercambiar datos en formatos de SIG hacia las herramientas de VisCi se ha logrado en casos puntuales. Algunos ambientes de VisCi se han aproximado en el nivel operacional permitiendo accesos directos a bases de datos de SIG; sin embargo esto suele ser en un solo sentido, una vez que la herramienta de VisCi genera la imagen tridimensional o la animación, generalmente no es posible activar las funciones de consulta de los SIG desde la pantalla de visualización. Lograr la integración funcional de SIG y herramientas de VisCi requiere de estándares abiertos de datos de SIG, enlaces a programas que permitan que las herramientas de VisCi realicen análisis de datos espaciales y funciones de extracción de información. También es factible el uso de sistemas expertos o una arquitectura basada en reglas con agentes inteligentes para facilitar la comunicación transparente entre SIG y herramientas de VisCi (Rogowitz et al., 1993). 25.

(37) CAPÍTULO I 2013. Los sistemas que implementan el enfoque mezclado replantean el proceso de desarrollo de herramientas SIG-VisCi. En este sentido la cartografía está bien posicionada como puente entre ambas tecnologías. Algunos de los primeros intentos del enfoque mezclado entre los SIG y la VisCi se han materializado a través de herramientas como GeoVista Studio y Snap-Together Visualization. Ambas herramientas están basadas en redes de componentes que permiten la construcción de complejos flujos de trabajos que vinculan componentes para el manejo de formatos de datos geográficos y de diferentes técnicas de VisCi. 1.5.1 Snap-Together Visualization Snap-Together Visualization es una herramienta Web que permite que los datos de los usuarios sean mezclados y correlacionados de forma dinámica en visualizaciones coordinadas para la construcción personalizada de interfaces de exploración sin necesidad de programación. El modelo conceptual de Snap-Together se basa en un modelo de base de datos relacional. Este permite que las relaciones sean cargadas durante la visualización y se coordinen basándose en las características que las unen. Los usuarios pueden crear diferentes tipos de coordinaciones tales como: barridos, vistas de detalles, vistas globales y desplazamientos sincronizados. Los desarrolladores de visualización pueden integrar al sistema sus visualizaciones independientes con un API simple. La evaluación de esta herramienta reveló beneficios en cuanto a aspectos cognitivos y su usabilidad, mejorando el rendimiento de los usuarios entre un 30 y un 80 por ciento, dependiendo de la tarea realizada (North et al., 2000). Algunas de las técnicas de visualización que están incluidas en esa herramienta son los Diagramas de Dispersión y los TreeMap (North et al., 2000). 1.5.2 GeoVista Studio GeoVista Studio(GAHEGAN et al., 2002; TAKATSUKA et al., 2002; MacEachren et al., 2003) es una herramienta de código abierto que implementa un ambiente de desarrollo basado en componentes. Suministra una interfaz de programación visual como muchos sistemas de VisCi, a través de la cual los usuarios pueden construir aplicaciones de forma rápida utilizando 26.

(38) CAPÍTULO I 2013. JavaBeans. El ambiente de programación visual permite a los analistas empaquetar funcionalidades dentro de un programa de trabajo. GeoVista soporta el desarrollo de aplicaciones geográficas y no geográficas. Para soportar la interoperabilidad de datos OpenGIS, los desarrolladores de GeoVista han comenzado a adaptar y extender la biblioteca GeoTools en cuanto al acceso a datos y los métodos de visualización. GeoTools es una biblioteca complementaria de código abierto desarrollada en Java para el desarrollo de soluciones OpenGIS que permite el acceso a datos geoespaciales, el análisis y la representación de tareas. El principal objetivo de GeoVista Studio es soportar la fusión de diversas capacidades visuales y analíticas en una herramienta de análisis que posibilite la multiperspectiva. GeoVista incluye además un conjunto de técnicas de visualización clásicas como Diagramas de Dispersión, Coordenadas Paralelas y Mapas Auto-Organizados(Kohonen, 1990; GAHEGAN et al., 2002; TAKATSUKA et al., 2002). La herramienta Exploratory Spatio-Temporal Analysis Tollkit(ESTAT) fue incluida al GeoVista Studio y constituye una buena herramienta para analizar datos espacio-temporales asociados a mapas vectoriales de áreas en formato ESRI shape. 1.5.3 VIS- STAMP Es un paquete de software para explorar los datos espacio-temporales multivariables, descubrir interesantes y complejos patrones desconocidos, y presentarlos en una forma fácil de entender para apoyar la interpretación humana, el razonamiento analítico, y / o la toma de decisiones. VISSTAMP(Guo et al., 2006; Keim et al., 2010; Aigner, 2011) ha sido usado para estudiar el cambio climático como se puede ver en (Jin et al., 2009). Es capaz de integrar:  Un Mapa Auto-organizado para realizar la agrupación de variables múltiples, la clasificación, y la asignación de colores.  Un gráfico de Coordenadas Paralelas para visualizar los patrones multivariados y servir como una "leyenda" en el sistema integrado.  Una Matriz Reordenable para organizar patrones multivariables en el espacio-tiempo, y para revelar la variación espacial. 27.

(39) CAPÍTULO I 2013 1.5.4 GAV Flash tools Las herramientas GAV Flash(Andrienko et al., 2010; Ho et al., 2011) del término en inglés Geovisual Analytics Visualization comparten aplicaciones basadas en los principios del análisis visual de datos. Contienen una colección de componentes visuales, algoritmos de análisis de datos, herramientas que conectan los componentes con otros componentes y suministradores de datos que pueden cargar datos desde varias fuentes. El sistema está completamente integrado con el framework de Adobe Flex (Van Ho et al., 2012). 1.5.5 ArcView - xGobi En la geovisualzación, un buen ejemplo de integración es el enlace bidireccional entre ArcView y XGobi (Symanzik et al., 2000), trabajo donde se integran los gráficos interactivos de XGobi para manipular datos con muchas dimensiones con las herramientas de manipulación de datos espaciales de ArcView. El ArcView - XGobi - Xplore permite que los datos recogidos en lugares espaciales que se almacenan en ArcView pasen dinámicamente a XGobi y Xplore y ser explorados y analizados. El vínculo entre los datos de XGobi y Xplore y los lugares de los que fueron recogidos se mantienen a través de marcado y enlace (linking and brushing). El marcado y enlazado, tal como se utiliza en este contexto, es la capacidad de cambiar el tamaño / color de los puntos, ya sea en ArcView, XGobi o Xplore y para ver que los puntos correspondientes de las otras aplicaciones cambian simultáneamente. 1.5.6 Formatos de datos científicos utilizados en la Visualización Científica Otra forma de integración de VisCi-SIG es mediante la incorporación a los SIG de formatos de datos científicos. Se han desarrollado intentos de integrar algunos de los formatos de datos científicos más comúnmente utilizados en la visualización científica, -como Common Data Format (CDF) (Atkinson et al., 1995), Network Common Data Format (NetCDF) (Rew et al., 1990), Hierarchical Data Format (HDF) (Zhao et al., 2010), y Flexible Image Transport System (FITS) (Hanisch et al., 2001)-, con sistemas de información geográfica, por ejemplo actualmente la suite de ArcGIS permite la manipulación de algunos de estos formatos, como NetCDF y HDF.. 28.