Reducción de la dimensionalidad de series temporales climáticas usando Deep Multi Layer Autoencoder
Texto completo
(2) ((REDUCCIÓN DE LA DIMENSIONALIDAD DE SERIES TEMPORALES CLIMÁTICAS USANDO DEEP MULTI-LAYER AUTOENCODER)) Reynaldo Alfonte Zapana. ii.
(3) Dedicatoria A mis padres por su tolerancia, por su apoyo, por sus consejos, por sus valores, por sus ejemplos de perseverancia y constancia que me han infundido siempre y por su amor que nunca olvidaré por el resto de mi vida.. iii.
(4) Agradecimientos. Agradezco a FONDECYT (Fondo Nacional de Desarrollo Cientı́fico, Tecnológico y de Innovación Tecnológica) por la subvención otorgada a través de cı́rculo de investigación N° 148-2015-CONCYTEC: “Cı́rculo de investigación en computación de alto desempeño con énfasis en el desarrollo de métodos y técnicas de mineria de datos de gran escala para el apoyo en investigaciones de cambio climático”. Agradezco profundamente a los profesores por darme la oportunidad de ser parte por primera vez de un proyecto de investigación, que me ha permitido desarrollar habilidades de investigación. Agradezco a los profesores y compañeros que formaron parte del cı́rculo de investigación con los que tuve anécdotas y compartı́ muchas ideas que me sirvieron posteriormente para mejorar la tesis. Agradezco de forma especial al profesor Cristian López del Alamo, Ana Maria Cuadros Valdivia y Alexander Ocsa Mamani por confiar y apoyar mi trabajo, y por fomentar la investigación.. iv.
(5) Resumen En este trabajo se propone un método basado en autoencoder para la reducción de la dimensionalidad de series temporales, el cual consiste en la configuración del número de capas y unidades. El método se comparó con técnicas de reducción de dimensionalidad lineales y no lineales. Además se provee dos casos de estudio para determinar relaciones en datos climáticos. Es importante la representación adecuada de las series temporales al momento de proceder a analizar con algoritmos de minerı́a de datos y aprendizaje automático. En series temporales hay una diversidad de técnicas de representación que a la vez hacen reducción de dimensionalidad. La representación más simple es considerar las series temporales ya de por sı́ como vector de caracterı́sticas. De acuerdo a nuestro conocimiento, el autoencoder ha sido ampliamente estudiado en imágenes más no en series temporales. Este trabajo constituye un primer paso para llevar estudios más elaborados en series temporales con autoencoder, especialmente de climatologı́a. Si bien existen estudios de otros tipos de redes neuronales Long Short-Term Memory Units (LSTMs) en análisis de series temporales, esos estudios no se relacionan con el autoencoder. Como parte de nuestros resultados se presenta: análisis de la capacidad de reducción de la dimensionalidad del método propuesto (multilayer autoencoder ) en series temporales de UCR Time Series Classification Archive a través de la calidad de clustering, análisis la capacidad en visualización a través del stress y análisis de dos casos de estudio en busca relaciones y similitudes en temperatura promedio de diferentes lugares en el Perú.. Palabras claves: Series temporales climáticas, autoencoder, aprendizaje profundo, visualización. v.
(6) Abstract In this work we propose a method based on autoencoder for the reduction of the dimensionality of time series, which consists of the configuration of the number of layers and units. The method was compared with linear and non-linear dimensionality reduction techniques. In addition, two case studies are provided to determine relationships in climate data. It is important to properly represent the time series when analyzing with data mining and machine learning algorithms. In time series there is a diversity of representation techniques that at the same time reduce dimensionality. The simplest representation is to consider the time series already as a vector of characteristics. According to our knowledge, autoencoder has been widely studied in images, not in time series. This work is a first step to carry more elaborate studies in time series with autoencoder, especially in climatology. Although there are studies of other types of neural networks Long Short-Term Memory Units (LSTMs) in analysis of time series, these studies are not related to the autoencoder. As part of our results we present: analysis of the dimensionality reduction capacity of the proposed method (multilayer autoencoder ) in time series of UCR Time Series Classification Archive through the quality of clustering, analysis of the capacity in visualization through stress and analysis of two case studies looking for relationships and similarities in average temperature of different places in Peru.. Keywords: Climatological time series, autoencoder, deep learning, visualization.. vi.
(7) Índice Página Resumen. V. Abstract. VI. Índice. VII. Índice de figuras. X. Índice de tablas. XII. Lista de abreviaturas. XIII. 1. Introducción. 1. 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4. Aportes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2. Trabajos relacionados. 6. 2.1. Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.1.1. Denoising autoencoder . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.2. Multilayer autoencoder . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.1.3. Deep autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. vii.
(8) 2.2. Estudios climáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3. Marco teórico. 14. 3.1. Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2. Reducción de la dimensionalidad de series temporales . . . . . . . . . . . . 15 3.2.1. Discrete cosine transform (DCT) . . . . . . . . . . . . . . . . . . . 16 3.2.2. Singular value decomposition (SVD). . . . . . . . . . . . . . . . . . 17. 3.2.3. Discrete wavelet transform (DWT) . . . . . . . . . . . . . . . . . . 17 3.2.4. Piecewise aggregate approximation (PAA) . . . . . . . . . . . . . . 18 3.2.5. Chebyshev polynomials (CP) . . . . . . . . . . . . . . . . . . . . . . 18 3.2.6. Indexable piecewise linear approximation (IPLA). . . . . . . . . . . 21. 3.2.7. Principal component analysis (PCA) . . . . . . . . . . . . . . . . . 22 3.3. Evaluación de técnicas de reducción de dimensionalidad . . . . . . . . . . . 23 3.3.1. Criterios externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.4. Proyección multidimensional de series temporales . . . . . . . . . . . . . . 28 3.5. Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.5.1. Denoising autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . 30 4. Reducción de la dimensionalidad mediante multi-layer autoencoder. 32. 4.1. Llenado de valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.2. Transformación de datos: Estandarización . . . . . . . . . . . . . . . . . . 34 4.3. Reducción de la dimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . 35. 5. Evaluación de la capacidad del multi-layer autoencoder. 36. 5.1. Reducción de la dimensionalidad lineal . . . . . . . . . . . . . . . . . . . . 36 5.1.1. Capacidad de reducción de la dimensionalidad a través de calidad de clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36. 5.2. Reducción de la dimensionalidad no lineal . . . . . . . . . . . . . . . . . . 40 5.2.1. Comparación de la proyección bidimensional de la base de datos CBF 40. viii.
(9) 5.2.2. Comparación con técnicas de reducción de dimensionalidad no lineales LLE y FASTMAP . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2.3. Análisis de la influencia del número de capas en ML AE . . . . . . 45 5.2.4. Análisis de la influencia de estrategias de pre-entrenamiento en ML AE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6. Caso de estudio: Temperatura promedio del Perú. 47. 6.1. Base de datos: NOAA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.2. Base de datos: MetOffice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7. Conclusiones. 51. 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7.3. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Bibliografı́a. 53. ix.
(10) Índice de figuras 2.1. Componentes e interacciones en el sistema climático[31]. . . . . . . . . . . 11 3.1. Ilustración de una arquitectura autoencoder. . . . . . . . . . . . . . . . . . 30. 3.2. Representación gráfica de denoising autoencoder . . . . . . . . . . . . . . . 31 4.1. Esquema de la propuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2. Rellenado de valores faltantes. . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3. Arquitectura del multilayer autoencoder 5.1. Base de datos synthetic control. . . . . . . . . . . . . . . . . . . . 35. . . . . . . . . . . . . . . . . . . . . . . . . 37. 5.2. Cluster purity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.3. Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.4. Jaccard score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.5. Rand index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.6. CBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.7. LLE: Dos de los tres grupos se sobreponen. . . . . . . . . . . . . . . . . . . 41 5.8. FASTMAP: Los tres grupos están dispersos sobre dos rectas. . . . . . . . . 42 5.9. Autoencoder : Los tres estan superpuestas sin ninguna frontera definida. . . 43 5.10. Multi-layer autoencoder : Los tres grupos estan bien definidos con frontera.. 43. 5.11. El AE y ML AE tienen un stress promedio mejor que otras técnicas de proyección, pero presentan mayor variabilidad. . . . . . . . . . . . . . . . . 44 5.12. Al aumentar el número de capas el stress promedio aumenta y su variabilidad disminuye. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.13. El multilayer autoencoder (ML AE) provee mayor estabilidad que usando estrategias de pre-entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . 46 x.
(11) 6.1. Temperatura promedio de 32 estaciones localizadas en Perú (NOAA). . . . 48 6.2. Proyección multidimensional de series temporales de temperatura promedio del Perú obtenidas desde la NOAA con multi-layer autoenoder . . . . . . . 49 6.3. Temperatura promedio de 41 estaciones localizadas en Perú (MetOffice [79]). 50 6.4. Proyección de temperatura promedio del Perú mediante multi-layer autoencoder. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50. xi.
(12) Índice de tablas 3.1. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1. Configuración de parámetros de multi-layer autoencoder. xii. . . . . . . . . . . 35.
(13) Lista de abreviaturas AE. :. Auto Encoder. AO. :. Arctic Oscillation. ARI. :. Adjustable Rand Index. CNN. :. Convolutional Neural Network. CP. :. Chebyshev Polynomials. CSM. :. Cluster Similarity Measure. DAE. :. Denoising Auto Encoder. DBN. :. deep belief network. DCT. :. Discrete Cosine transform. DNN. :. Deep Neural Network. DWT. :. Discrete Wavelet Transform. EOF. :. Empirical Orthogonal Function. FERET. :. Facial Recognition Technology database. FM. :. Folkes-Mallow index. GPU. :. Graphics Processing Unit. IPLA. :. Indexable Piecewise Linear Approximation. JPEG. :. Joint Photographic Experts Group. LAMP. :. Local affine multidimensional projection. LDA. :. Linear discriminant analysis. LLE. :. Locally linear embedding. LSA. :. latent semantic analysis. xiii.
(14) LSP. :. Least square projection. Met Office. :. Meteorological Office. ML AE. :. Multi Layer Auto Encoder. MLP. :. Multilayer perceptron. MNIST. :. Modified National Institute of Standards and Technology database. MPEG. :. Moving Picture Experts Group. MSE. :. Multi-Scale Entropy. NLPCA. :. Nonlinear PCA. NMI. :. Normalized Mutual Information. NOAA. :. National Oceanic and Atmospheric Administration. PAA. :. Piecewise Aggregate Approximation. PCA. :. Principal component analysis. PLP. :. Piecewise Laplacian-based projection. RBM. :. Restricted Boltzmann Machine. ReLu. :. Rectified Linear Unit. RI. :. Rand Index. SAE. :. Stacked Auto Encoder. SDAE. :. Stacked Denoising Auto Encoder. STDM. :. Spatio-Temporal Data Mining. SVD. :. Singular value decomposition. TAVG. :. Temperature Average. xiv.
(15) Capı́tulo 1. Introducción Autoencoder (AE) ha recibido mucha atención en los últimos años debido a su capacidad de capturar caracterı́sticas relevantes de los datos, lo cual es de gran importancia en muchas áreas del conocimiento. AE se distingue de las redes neuronales tradicionales por poseer exactamente tres capas (entrada, oculta y salida), en el cual el número de unidades de la capa de entrada es igual al número de unidades de la capa de salida [1]. Las ventajas son obvias ya que provee una representación compacta de los datos al tener el número de unidades de capa oculta mucho menor que la entrada. Además, se ha demostrado que puede detectar estructuras repetitivas [2] [3]. Sin embargo, no logra capturar caracterı́sticas no lineales y complejas de los datos. Una forma de fortalecer el AE es a través de la incorporación de más capas ocultas alrededor de la capa oculta central y del uso de funciones de activación no lineales: tangente hiperbólica, sigmoidal o ReLU. Por ejemplo, Kramer [4] mostró que al agregar más capas con funciones de activación no lineal (sigmoidal) se mejora el error de reconstrucción y se captura correlaciones tanto lineales como no lineales y recientemente se ha introducido un paso previo al entrenamiento, en el cual se inicializan los pesos con una estrategia no supervisada RBM [5], AE [6], DAE [7]. Sin embargo, a pesar de que con esta configuración se ha logrado mejorar la reducción de la dimensionalidad, mostrar su potencia en visualización e incluso apoyar en el análisis exploratorio de los datos, ha habido poco interés en determinar la mejor configuración de parámetros del AE.. 1.
(16) Por otro lado, los estudios climáticos han tomado mucha relevancia en los últimos años no solamente por parte de los climatólogos sino también por investigadores de otras áreas, organismos internacionales e instituciones del estado. Los estudios climáticos consisten principalmente de análisis estadı́stico [8] [9] [10] y dependen mucho de los datos obtenidos por instrumentos o estrategias de recolección [11]. Estos estudios tienen mucha utilidad para la toma de decisiones, prevención ante desastres naturales, agricultura, silvicultura, planificación urbana, conservación de la naturaleza, gestión del agua, suministro de energı́a, turismo, etc. Sin embargo, no se tienen suficientes herramientas para llevar a cabo sus estudios. Una forma de reforzar los estudios climáticos es incorporando conocimientos de computación y ha habido estudios que han usado técnicas computacionales. Por ejemplo, Faghmous [12] propone un método para identificar remolinos oceánicos de meso-escala a partir de datos satelitales, Zhang [13] propone un método basado en Haar para analizar la Arctic Oscillation (AO) que es un aspecto clave de la variabilidad climática en el hemisferio norte, Sips [14] aborda el problema de identificación patrones en series temporales medioambientales y recientemente con técnicas más sofisticadas de deep learning, Liu [15] propone un método para detectar eventos extremos de los datos climáticos. Sin embargo, todavı́a existe una gran brecha entre el área de la computación y el campo de la climatologı́a, por tanto, faltan incorporar los estudios computacionales que están muy avanzados en estudios climáticos.. 1.1.. Motivación. El objetivo de estudiar datos climáticos es entender los fenómenos climáticos y realizar pronósticos. Para esto existen dos estrategias. La primera forma es encontrar en el pasado patrones climáticos similares a los actuales. La segunda forma es determinar ubicaciones fı́sicas (localizaciones) que tienen un comportamiento similar. Aunque estas formas no nos 2.
(17) den un valor exacto, son definitivamente un punto de partida para estudios más elaborados de análisis y pronóstico los datos climáticos. Lo habitual es que los datos del clima sean abordados por métodos estadı́sticos por climatólogos [8] [9], pero también se pueden abordar desde la perspectiva computacional con métodos de minerı́a de datos [12], visualización [14] [16] [17] [18] y aprendizaje automático. Los datos climáticos pueden ser de alta dimensionalidad en su aspecto temporal y espacial y contener diferentes tipos ruidos, haciendo que las técnicas de minerı́a de datos se vuelvan ineficientes en el momento de procesar la información [19] e incluso requiriendo alto costo computacional al procesar, punto a punto, las series temporales. Para llevar a cabo estos estudios desde la perspectiva computacional de forma satisfactoria es necesario considerar las variables en sus diferentes rangos temporales y resoluciones espaciales. La forma más habitual de abordar estas caracterı́sticas es a través de la reducción de la dimensionalidad. Las ventajas de la reducción de la dimensionalidad son variadas [20] [21] [22]:. Disminuye el costo computacional, ya que la serie temporal es representada por un vector de caracterı́sticas (representación compacta) que contiene información relevante. Como consecuencia de la representación compacta, disminuye el uso de memoria haciendo posible el procesamiento de gran cantidad de series temporales. En la mayorı́a de los casos mejora la calidad de los resultados de minerı́a de datos al disminuir el ruido inherente en los datos.. 3.
(18) 1.2.. Problema. La alta dimensionalidad de los datos climáticos disminuye la performance de los algoritmos de minerı́a de datos [19] [23]. Los algoritmos de minerı́a de datos muchas veces no son escalables a la alta dimensionalidad de los datos y su costo computacional es directamente proporcional a la longitud de series temporales. De acuerdo al estado del arte, hay muchas propuestas del autoencoder aplicados en reducción de la dimensionalidad de imágenes [5] [2] [3] [24], pero no hay estudios que evalúen la red neuronal autoencoder como técnica de reducción de dimensionalidad de series temporales.. 1.3.. 1.3.1.. Objetivos. Objetivo general. Desarrollar un método basado en autoencoder para la reducción de la dimensionalidad de series temporales climáticas.. 1.3.2.. Objetivos especı́ficos. Proponer un método basado en autoencoder para reducción de la dimensionalidad de series temporales. Analizar casos reales con datos del clima obtenidos de Met Office y NOAA a través de reducción de la dimensionalidad.. 4.
(19) 1.4.. Aportes. Este trabajo tiene las siguientes contribuciones:. Un método basado en autoencoder para reducción de la dimensionalidad de series temporales. Análisis de la temperatura media del Perú con datos del clima obtenidos de Met Office y NOAA.. 1.5.. Estructura de la tesis. Este trabajo está estructurado de la siguiente manera:. En el Capı́tulo 2 se presentan los trabajos relacionados. Principalmente, el uso del autoencoder en sus diferentes formas. En el Capı́tulo 3 se presenta el marco teórico. Se provee información de técnicas de reducción de dimensionalidad tradicionales tanto lineales como no lineales. En el Capı́tulo 4 se presentan los pasos de nuestra propuesta para llevar a cabo la reducción de la dimensionalidad. En el Capı́tulo 5 se presentan los resultados de evaluación de nuestra propuesta con series temporales de la UCR Time Series Classification Archive. En el Capı́tulo 6 se presentan dos casos de estudio con datos del clima reales con el objetivo de analizar y encontrar algunos patrones climáticos. Finalmente, en el Capı́tulo 7 se presentan las conclusiones, recomendaciones y trabajos futuros. 5.
(20) Capı́tulo 2. Trabajos relacionados. 2.1.. Autoencoder. El autoencoder (AE) ha jugado un rol muy importante en el área de aprendizaje automático (machine learning). No solo en la reducción de la dimensionalidad, sino también como inicializador de pesos de redes neuronales profundas. Logrando en la mayorı́a de los casos valores óptimos de los parámetros lo cual influye directamente en cualquier tarea posterior (clasificación, clustering, etc.) Boullard [1] demuestra analı́ticamente que independientemente de la función de activación (lineal o no lineal) de la capa oculta del autoencoder, los parámetros (pesos y bias) pueden ser aproximados mediante factorización de matrices SVD. Estos parámetros obtenidos son óptimos debido a que no pueden ser mejorados a través de las iteraciones del algoritmo backpropagation. Wang [2] [3] compara el autoencoder con PCA, LDA, LLE e Isomap en la reducción de la dimensionalidad de bases de datos sintéticos (funciones bidimensionales y tridimensionales). En su análisis, observa que difiere de otros métodos en la reducción de la dimensionalidad, ya que al parecer pueden detectar estructuras repetitivas. Además, en otro de sus experimentos el autoencoder se compara con PCA en la proyección bidimensional de base de datos de imágenes MNIST. En los resultados, el autoencoder funciona. 6.
(21) mejor que PCA, ya que tiende a proyectar imágenes de la misma clase en los bordes y esquinas del espacio de visualización. Asimismo, analiza la capacidad de clasificación en base al número de nodos en la capa oculta con Softmax classifier. En clasificación de imágenes MNIST, se observa que mejores resultados se obtienen cuando la cantidad de nodos se estable alrededor de la dimensionalidad intrı́nseca del conjunto de datos (10 nodos). Sin embargo no se puede decir lo mismo en la clasificación de imágenes Olivetti face, debido a que requiere más nodos.. 2.1.1.. Denoising autoencoder. Una variación del autoencoder tradicional es denoising autoencoder (DAE), el cual introduce un nuevo parámetro llamado factor de ruido que es aplicado a los datos de entrada antes de ser ingresados a la red neuronal. El valor de este parámetro debe ser seleccionado con cuidado de acuerdo al problema a estudiar [25]. DAE tiene como datos de entrada señales con ruido y como salida se fuerza a que reconstruya la señal original, con esto se intenta encontrar patrones más compactas que los obtenidos por el autoencoder tradicional. Denoising autoencoder (DAE) ha tomado mucha atención como estratergia de preentrenamiento de redes neuronales profundas. Por ejemplo, Vincent [7] [25] realiza una comparación de estrategias de preentrenamiento SDAE, SAE, RBM en una MLP de tres capas ocultas en problemas clasificación. En la mayorı́a de los casos (variaciones del MNIST), SDAE es la mejor estrategia que SAE y RBM. Además, analiza la influencia de hiper parámetros (número de capas, unidades ocultas en cada capa y el nivel de ruido) de la MLP. Se determina que a más capas (en este caso 3 capas, la estrategia de preentrenamiento SDAE brinda mejores resultados de clasificación de imágenes (variación de MNIST), SDAE se desempeña mejor que SAE para ciertos niveles de ruido (el conocimiento previo de los datos en estudio permite determinar el nivel de ruido). La. 7.
(22) mejor configuración en este caso es salt-pepper noise + SDAE. Finalmente, al comparar SAE, SDAE y DBN en reconstrucción de imágenes MNIST. Se observa que SDAE y DBN tienen la misma variabilidad en reconstrucción de imágenes. Las caracterı́sticas obtenidas por denoising autoencoder (DAE) y PCA no son similares. Ambos tienen la capacidad extraer caracterı́sticas relevantes, pero DAE logra obtener otras caracterı́sticas adicionales [26]. Se ha logrado mejorar la clasificación de una red neuronal multicapas al inicializar los pesos con stacked denoising autoencoders (SDAE) [27]. Primero, se entrenan denoising autoencoders secuencialmente uno después del otro. Luego, estos pesos se convierten en valores iniciales de la red neuronal multicapas. Finalmente, se entrena como si fuera un clasificador. En los resultados, se observa que esta estrategia provee mejor performance que Feedfoward neural network y Logistic.. 2.1.2.. Multilayer autoencoder. Kramer [4] hace una comparación de PCA, autoencoder y NLPCA. NLPCA es una red neuronal autoencoder con 3 capas ocultas (multilayer autoencoder ). En sus resultados, NLPCA provee menor error de reconstrucción siendo mejor que PCA y autoencoder. Al agregar más nodos a las capas ocultas, se mejora aún más el error de reconstrucción. Después de obtener el vector de caracterı́sticas de las imágenes con multilayer autoencoder (ML AE), estos son usados como entrada a deep neural network (DNN) [28]. Las bases de datos de imágenes (MNIST y FERET) son codificadas en vector de 64 dimensiones por un ML AE. Luego, estos vectores sirven de entrada a clasificadores: shallow neural network (Perceptron), deep neural network (DNN) y deep belief network (DBN). Como resultado, DBN es mejor en clasificación, pero al incrementar el nivel de ruido, DNN es mejor que DBN. Ambas arquitecturas profundas se desempeñan mejor que perceptron. 8.
(23) 2.1.3.. Deep autoencoder. Hinton [5] establece una estrategia de pre-entrenamiento basado en RBMs para un multilayer autoencoder (deep autoencoder ). Esta estrategia logra mejor reconstrucción de imágenes (MNIST y Olivetti face) que PCA. En visualización, deep autoencoder produce mejor visualización que PCA en imágenes MNIST. Deep autoencoder, es mejor en performance que LSA en recuperación documentos similares (Reuter Corpus Volume 2 ). El autoencoder y deep autoencoder pueden trabajar con descriptores globales de las imágenes (esto en caso no se tuviesen las imágenes, solamente descriptores) al mismo tiempo compitiendo con los descriptores originales en recuperación de imágenes [29]. Como primer paso, se obtuvo un conjunto de descriptores de imágenes. Luego, se obtuvieron caracterı́sticas mediante autoencoder y deep autoencoder al fusionar todos los descriptores de las imágenes. Después de eso, se compara la precisión promedio de las arquitecturas del autoencoder y los descriptores originales de las imágenes. Como resultado, el autoencoder y deep autoencoder tienen un desempeño en promedio similar que los descriptores. La estandarización (Batch Normalization) y función de activación ReLu en un deep autoencoder mejora la clasificación de enfermedades del hı́gado [30]. La base de datos consiste de 20 ı́ndices que definen si el hı́gado sufre de algún daño. Como primer paso, el deep autoencoder es configurado con estandarización y activación ReLu en cada unidad de las capas ocultas. Luego, en la etapa de pre-entrenamiento se determinan los pesos iniciales. En la etapa de entrenamiento en sı́ (fine tuning), se elimina la parte decoder del deep autoencoder para agregarle un capa clasificador (softmax classifier ). En los resultados se observa aceleración en la convergencia y mejora en la exactitud.. 9.
(24) 2.2.. Estudios climáticos. El término “clima” tiene una definición variada dependiendo del interés del investigador. Generalmente se asocia “clima” con temperatura [31], a pesar de que está compuesta de muchos parámetros o variables (precipitación, humedad, etc.). Una definición podrı́a ser “[...] conjunto de [...] factores quı́micos y fı́sicos no vivientes en el medio ambiente, que afectan a los ecosistemas” [11]. Sin embargo, esta definición es muy general y no se presta para nuestros propósitos. Otra definición más completa es “[...] las estadı́sticas que describen la atmósfera y océano determinados sobre un intervalo de tiempo definido (estaciones, décadas o más), calculadas para el planeta en su totalidad o posiblemente para una región seleccionada” [31]. Con esto se resalta el aspecto temporal, espacial y parámetro de los datos climáticos. El cambio climático de una región especı́fica se puede definir como las variaciones en las estadı́sticas en un lapso de 30 años. Algo importante es que estas variaciones emergen a partir de las interacciones entre diferentes componentes propios del sistema climático y diferentes factores externos, Figura 2.1. El avance de la tecnologı́a ha permitido al ser humano recolectar información climática de diversas formas. Estas se dan mediante instrumentos fijos (sensores) hasta remotos (imágenes satelitales). Actualmente, los datos climáticos disponibles se pueden clasificar en cuatro grupos: in situ, de percepción remota (remote sensing), salidas del modelo matemáticos y paleo climáticos [12]. Los mecanismos de percepción remota ofrecen información a gran resolución espacial (imágenes satelitales) pero esta forma es muy reciente, datos paleo climáticos brindan información de largos periodos de tiempo (sedimentos glaciales, cortezas de árboles, etc.) pero no son de alta resolución y los modelos matemáticos generan información temporal y espacial de alta resolución pero necesitan de datos reales para inicializar sus parámetros. Al parecer los datos in situ son una buena fuente de información, pero solo se conoce los registros a partir de mediados de 1800 [32].. 10.
(25) Figura 2.1: Componentes e interacciones en el sistema climático[31]. Se pueden abordar los estudios climáticos de diversas formas. Algunos investigadores prefieren usar métodos tradicionales basados en la estadı́stica, mientras otros aprovechan los grandes avances que ha tenido las técnicas computacionales. Casi todos los trabajos abordan un aspecto especı́fico de los datos climáticos, aunque algunos de ellos proponen técnicas para problemas generales y muy pocos estan usando técnicas de deep learning para estudiar los datos climáticos. Balzter [8] presenta, Multi-Scale Entropy (MSE), un método para identificar las escalas temporales de variabilidad y su cambio en el tiempo en series temporales climáticas. MSE se obtiene al calcular la entropı́a de las series temporales particionadas a diferentes escalas temporales. Los resultados en anomalı́as de temperatura mensual de Europa central (CRUTEM4v) muestran que las escalas temporales del clima (1960-2014) son diferentes del promedio a largo plazo (1850-1960), debido a que las escalas temporales mayores a 12 meses, tienen mayor entropı́a que el promedio a largo plazo. A partir de 1961 los patrones de temperatura mensual de aire son menos regulares a escalas temporales mayores que 11.
(26) 12 meses. Estos resultados nos sugieren que, en estas escalas de tiempo interanuales, la variabilidad se ha convertido menos predecible que en el pasado. Mudelsee [9] presenta métodos estadı́sticos que tiene en cuenta la incertidumbre de los procesos climáticos para estimar sus parámetros. Se sabe que los intervalos de confianza más estrechos garantizan un entendimiento más preciso de los datos (menor incertidumbre). Para construir intervalos de confianza, hacen uso de enfoques clásicos y adaptaciones de métodos clásicos (bootstrap). Presentan una variedad de técnicas tales como: análisis de regresión lineal y no lineal, el análisis espectral y el análisis de series temporales de valores extremos en el caso de análisis de series de tiempo climáticas univariadas, correlación, ası́ como otras variantes de la regresión para las series temporales bivariadas. Hennemuth [10] presenta una variedad de métodos estadı́sticos que se pueden utilizar en estudios de investigación. Se muestran las diferentes aplicaciones de estos métodos para documentar el rango de posibilidades de su uso. Estos métodos presentados abarcan: estadı́sticos generales, distribuciones de frecuencia, análisis de series de tiempo, corrección de sesgo, pruebas de significancia, regionalización (downscaling, interpolación), análisis de valor extremo (método de selección, estimación de parámetros, métodos empı́ricos, métodos de análisis de valores extremos), ı́ndices (medidas de evaluación del modelo, ı́ndices estadı́sticos climáticos), métodos espaciotemporales, ensemble analysis. Faghmous [12] presenta una amplia gama de aplicaciones de Spatio-temporal Data Mining (STDM) aplicados a datos del clima con su respectivos ejemplos. Por ejemplo en Spatio-temporal Query Matching se ha enfocado tanto en el análisis exploratorio como formulación y consultas a gran cantidad de datos, en Pattern Mining se han usado técnicas como empirical orthogonal function (EOF) analysis, clustering para encontrar patrones espacio temporales, en Event and Anomaly Detection se presenta diversos algoritmos para la detección de cambios de eventos y anomalı́as en los datos de los ecosistemas, en Relationship Mining presenta varios trabajos que analizan las relaciones lineales entre. 12.
(27) las variables climáticas, en Spatio-temporal Predictive Modeling se proveen métodos de predicción que tienen aspectos espacio temporales, en Network-Based Analysis los nodos del grafo(o red) son las posiciones geográficas mientras el peso de las relaciones es el grado de similitud entre las series temporales de los respectivos nodos y diferentes métodos se han propuesto para abordar como grafos. Zhang [13] con el fin de extraer la información intrı́nseca de las series de tiempo climáticas con presencia de ruido rojo, propone una fórmula analı́tica sobre la distribución de los espectros de potencia wavelet del ruido rojo. Después de comparar la diferencia de espectros de potencia wavelet de series de tiempo climáticas reales y ruido rojo, se pueden extraer caracterı́sticas intrı́nsecas de series de tiempo climáticas. Al analizar la Arctic Oscillation (AO), que es un aspecto clave de la variabilidad climática en el hemisferio norte, se descubrió un gran cambio en las propiedades fundamentales del AO (cambio de régimen o punto de disparo). Sips [14] presenta un enfoque de Visual Analytics que aborda la detección de patrones en series de tiempo medio ambientales. La propuesta consiste de tres pasos principales: un algoritmo para calcular valores estadı́sticos para todas las escalas de tiempo posibles y posiciones iniciales de intervalos, identificación visual de patrones en una visualización matricial y exploración interactiva. Se demuestra la utilidad de este enfoque en dos escenarios cientı́ficos y se explica cómo permitió a los cientı́ficos obtener una nueva visión de la dinámica de los sistemas ambientales. Las técnicas de deep learning se ha usado para la detección de eventos extremos climáticos. Debido a que las redes neuronales profundas pueden aprender representaciones de alto nivel a partir de datos etiquetados, Liu [15] desarrolla un sistema de clasificación basado en Convolutional Neural Network (CNN) y demuestra su utilidad para en la detección de eventos extremos (ciclones tropicales, rı́os atmosféricos y frentes meteorológicos).. 13.
(28) Capı́tulo 3. Marco teórico. 3.1.. Series temporales. Una serie temporal x es una secuencia de números reales con orden cronológico [22]. La diferencia con otro tipo de datos es el componente temporal. Formalmente, se puede representar por la siguiente expresión:. xi = (xi1 , xi2 , . . . , xim ), xij ∈ R, 1 ≤ j ≤ m. (3.1). Las series temporales pueden ser univariados o multivariados. Los primeros son representados por un vector, Ecuación 3.1, mientras que los segundos consisten de múltiples series que abarcan las mismas dimensiones temporales y son representadas por una matriz.. x = {x1 , x2 , . . . , xn }, xi ∈ Rm. (3.2). Existen diversas tareas en series temporales que permiten analizar y sacar provecho de sus caracterı́sticas [22] [33]. Entre ellas están las consultas por similitud, en la que se deben considerar si son de coincidencia completa o de subsecuencia [34]. En el primer caso todas deben tener la misma longitud. En el segundo caso se crea una ventana deslizante de. 14.
(29) la misma longitud de la serie que hace de consulta convirtiéndose al final en un problema similar al primero. Otra tarea común es la clasificación en la que se entrena un modelo y luego se usa este modelo para determinar a qué clase pertenece una nueva serie temporal. La tarea más importante sin duda es el pronóstico de las series temporales, debido a que estas contienen información temporal implı́cita (datos históricos).. 3.2.. Reducción de la dimensionalidad de series temporales. La reducción de la dimensionalidad se refiere a la transformación de un objeto localizado en un espacio de alta dimensión hacia otro espacio de menor dimensión preservando las caracterı́sticas locales y globales importantes de los datos originales [20] [33] [22]. Supóngase que una serie temporal x de longitud m esta representado por un vector x = f (x) de dimensión p tal que x capture lo más relevante de x. Si la representación reducida captura todas caracterı́sticas, entonces se debe cumplir lo siguiente. [35]:. “Dado que dos series temporales S y T son similares en el espacio original, entonces sus representaciones reducidas en el espacio de transformación también son similares”.. doriginal (T, S) ≈ dreducido (T , S) = dreducido (f (T ), f (S)). (3.3). Donde doriginal es la distancia en el espacio original y dreducido es la distancia en el espacio reducido.. 15.
(30) 3.2.1.. Discrete cosine transform (DCT). DCT transforma cualquier señal hacia un dominio de frecuencias usando solamente funciones coseno. Su uso es principalmente en la compresión de imágenes JPEG [36] y de video MPEG [37]. Para una serie temporal x = {x1 , . . . , xm } de longitud m, los coeficientes DCT se obtienen por:. xj = K(j). m X. xi cos. i=1. π 1 (i − )(j − 1) , j = 1, . . . , m m 2. (3.4). donde xj es el j-ésimo elemento del vector de caracterı́sticas y el factor K(j) está definido por:. √1 , m K(j) = q 2, m. para j = 1 para 2 ≤ j ≤ m. Los primeros p coeficientes DCT forman el vector de caracterı́sticas:. x = {x1 , . . . , xp }, para p ≤ m. DCT tiene ciertas caracterı́sticas [38]: Sus coeficientes son números reales, puede manejar señales con tendencias y mejora la concentración de energı́a si los valores consecutivos están altamente correlacionados.. 16.
(31) 3.2.2.. Singular value decomposition (SVD). Las series temporales de igual longitud puede ser organizados en una matriz X de dimensión n × m donde n es el número de series temporales y m es la longitud de todas series temporales. Por teorı́a en álgebra lineal, toda matriz X se puede descomponer en la multiplicación de tres matrices [39]:. Xn×m = Un×n × An×m × Vm×m. (3.5). donde U es una matriz ortogonal por columnas de orden n × n, A es una matriz con elementos en la diagonal de orden n × m y V es una matriz ortogonal por filas de orden m × m. La reducción de la dimensionalidad se obtiene especificando el valor de p (dimensión deseada del vector de caracterı́sticas 1 ≤ p ≤ m).. X n×p = Un×n × An×p = [λ1 u1 , . . . , λp up ]. (3.6). donde ui es el vector columna de las matrices U y λi son elementos diagonales de la matriz A ordenados en orden decreciente (autovalores de la matriz X).. 3.2.3.. Discrete wavelet transform (DWT). Representa los datos en términos de funciones base, wavelets y los procesa a diferentes escalas o resoluciones. La forma más común de wavelets es Haar Wavelet [40]: (1) es una buena aproximación 17.
(32) con un subconjunto de coeficientes, (2) se puede calcular rápida y fácilmente, requiriendo tiempo lineal en la longitud de la secuencia y codificación simple, y (3) preserva la distancia euclidiana. La complejidad de DWT usando la transformación de Haar es O(n). La desventaja es que la longitud de la serie temporal n debe ser potencia de 2.. 3.2.4.. Piecewise aggregate approximation (PAA). La serie temporal x = {x1 , ..., xm } de longitud m se divide en p ventanas de la misma longitud k. Se calcula el promedio de los datos que caen dentro de cada ventana. Su representación x esta dado por [41]:. xi =. donde k =. j k m p. 1 k. k∗i X. xj , para 1 ≤ i ≤ p. (3.7). j=k∗(i−1)+1. , p es la dimensión deseada del vector caracterı́stica x y xi es el i-ésimo. elemento del vector caracterı́stica x. Sı́ p = m, entonces la representación es idéntica a la representación original. Si p = 1 la representación es simplemente la media de los valores de la serie original.. 3.2.5.. Chebyshev polynomials (CP). El polinomio de chebyshev Pm (t) es el polinomio de grado m, definido como:. Pm (t) = cos(m ∗ arc cos(t)), t ∈ [−1, 1]. (3.8). 18.
(33) También como Pm (t) = cos(mθ), t = cos θ, θ ∈ [0, π]. (3.9). Dado la identidad trigonométrica cos(mθ) + cos((m − 2)θ) = 2cosθcos((m − 1)θ). Los polinomios de chebyshev pueden ser definidos con la siguiente relación de recurrencia:. Pm (t) = 2tPm−1 (t)–Pm−2 (t), m ≥ 2. (3.10). Los polinomios de chebyshev P0 (t), ..., Pm (t) son ortogonales, por tanto su producto interior es igual a 0.. Z. 1. < Pi , Pj >= −1. 0 si i 6= j Pi (t)Pj (t) √ dt = π/2 si i = j 6= 0 1 − t2 π si i = j = 0. (3.11). Se define la función de peso chebyshev, con el propósito de que el resultado de la integración sea exacto [42].. w(t) = √. 1 1 − t2. (3.12). Debido a su ortogonalidad, los polinomios de chebyshev pueden utilizarse como base para aproximar cualquier función. Es decir, la función f (t), puede ser aproximada por:. f (t) ≈ c0 P0 + ... + cm Pm. (3.13). La aproximación es exacta si f (t) es un polinomio y su grado es menor o igual a m. 19.
(34) Sea la serie temporal x = (x1 , ..., xi , ..., xN ), se definen los intervalos. 1 −1, − 1 , if i = 1 N −1 h 2∗(i−1)−1 Ii = − 1, 2∗i−1 − 1 , if 2 ≤ i ≤ N − 1 N −1 N −1 N −2 , 1 , if i = N N −1. Se calcula los raices de PN (t), tj = cos. . (j−0.5)∗π N. . (3.14). , 1 ≤ j ≤ N.. Se define la función de paso:. g(t) = vi , if t ∈ Ii para 1 ≤ i ≤ N. (3.15). El lema de lı́mite inferior es satisfecho con la inclusión de la función de peso chebyshev y la longitud de cada subintervalo:. g(t) f (t) = p , if t ∈ Ii para 1 ≤ i ≤ N w(t)|Ii |. (3.16). Donde g(t) es definido por la Ecuación 3.12 y |Ii | es la longitud del subintervalo Ii El vector de caracterı́sticas está conformado por los primeros coeficientes de chebyshev, “p” [43].. N N 1 X 1 X f (tj )P0 (tj ) = f (tj ) c0 = N j=1 N j=1. (3.17). N 2 X ci = f (tj )Pi (tj ), para 1 ≤ i ≤ p − 1 N j=1. (3.18). 20.
(35) Las fórmulas anteriores para obtener c0 y ci difieren en un factor de 2, como consecuencia directa del segundo y tercer caso mostrados anteriormente en la Ecuación 3.11. La representación reducida está dado por:. x = [c0 , . . . , cp−1 ]. Y su reconstrucción se obtiene de la siguiente forma:. p−1 q X xj ≈ w(tj )|Ii | ci Pi (tj ), para 1 ≤ j ≤ N. (3.19). i=0. 3.2.6.. Indexable piecewise linear approximation (IPLA). La técnica Piecewise Linear Approximation (PLA) [44], [45] consiste en aproximar la serie temporal con segmentos generalmente de diferente longitud. Para esto existen tres estrategias bien definidos [46], sin embargo no se asegura que cumpla la propiedad Lower Bounding (LB) [34]. Chen [47] propone el uso de una aproximación de series temporales con segmentos de igual longitud (IPLA). Es decir, la serie temporal x = {x1 , ..., xn }, es dividido en m n (solo se utilizan l ∗ m elementos de la serie segmentos disjuntos de longitud l = m temporal). Luego, cada segmento i es aproximado por un recta (mejor ajuste de regresión lineal) y se toman sus coeficientes ai y bi (1 ≤ i ≤ m) como su representación PLA:. x = {a1 , b1 ; a2 , b2 ; . . . ; am , bm }. (3.20). La complejidad computacional de la representación PLA es O(n). Por ejemplo, supónga21.
(36) se que la secuencia x = {x1 , ..., xn } de longitud n es representado por un recta, x(t)0 = a ∗ t + b (t ∈ [1, n]), donde a y b son coeficientes de la recta que minimiza el error de reconstrucción (regresión lineal), RecErr(x).. v v u n u n uX uX RecErr(x) = t (xt –x0t )2 = t (xt − (a ∗ t + b))2 t=1. (3.21). t=1. Para obtener los coeficientes a y b, se deben cumplir las siguientes condiciones.. ∂RecErr(x) ∂RecErr(x) =0y =0 ∂a ∂b. (3.22). Los coeficientes se obtienen de:. P 12 nt=1 (t − n+1 )xt 2 a= n(n + 1)(n − 1). b=. 6. Pn. − 2n+1 )xt 3 n(n − 1). t=1 (t. (3.23). (3.24). donde xt es el valor de la serie temporal x en el tiempo t.. 3.2.7.. Principal component analysis (PCA). Las series temporales se pueden acomodar en una matriz X de dimensión n × m donde n es el número de series temporales y m es la longitud de todas series temporales. Luego, se obtiene la matriz covarianzas de X. Finalmente, se determina m vectores unitarios que son perpendiculares entre sı́ (llamados componentes principales) [48] [49]. De manera que. 22.
(37) los datos de entrada son una combinación lineal de los componentes principales. Los componentes principales se ordenan en orden decreciente y sirven esencialmente como un nuevo conjunto de ejes para los datos, proporcionando información importante sobre la varianza. Es decir, los ejes ordenados son tales que el primer eje muestra la mayor varianza entre los datos, el segundo eje muestra la siguiente varianza más alta, y ası́ sucesivamente. Debido a que los componentes se ordenan en orden decreciente, el tamaño de la información se puede reducir eliminando los componentes más débiles, es decir, aquellos con baja varianza. Usando los componentes principales más fuertes, deberı́a ser posible reconstruir una buena aproximación de los datos originales.. 3.3.. Evaluación de técnicas de reducción de dimensionalidad. Hay una variedad de estrategias para evaluar la reducción de la dimensionalidad de series temporales. Tightness of lower bounds [50] [51] [52] y Pruning power [53] [50] [43] requieren que su medida de similitud cumpla el siguiente criterio Dreducido (S, T ) ≤ Doriginal (S, T ), son independientes de sesgos de implementación y solamente dependen de los datos. Hierarchical clustering [54] [55] provee un visualización jerárquica de las series temporales. El problema es que no siempre se tienen el espacio visual para mostrar todas las series temporales. Además, el costo computacional es demasiado elevado para gran cantidad de datos. El error de clasificación de 1-NN classifier y support vector machine (SVM) [38] son usadas para comparar los métodos de reducción de dimensionalidad. Se calcula el error para diferentes longitudes del vector de caracterı́sticas. La función objetivo de k-mean clustering [56] [57] tanto en datos originales como en vectores de caracterı́sti-. 23.
(38) cas. Debido a que k-means optimiza (minimiza) en cada iteración la función objetivo, se logra cluster más compactos. Esta estrategia corresponde a criterios internos de validación de clustering. Las medidas de calidad de k-mean clustering [58] [59] de los vectores de caracterı́sticas y los datos originales. Requieren que los datos estén previamente clasificados para poder contrastar con los clusters encontrados. Una vez que los cluster son determinados por k-mean clustering, la validación se da a través de criterios externos [60] [61] [48] [62].. 3.3.1.. Criterios externos. A partir de una tabla de contingencia. Una tabla de contingencia se define una representación tabular de los grupos originales y los clusters encontrados, Tabla 3.1. Cada celda de la representación tabular contiene el número de objetos de un determinado grupo y cluster.. Grupos. g1 g2 .. . gK. c1 n11 n21 .. .. clusters c2 . . . n12 . . . n22 . . . .. .. . .. cK n1K n2K .. .. n1. n2. .. .. nK1 n.1. nK2 n.2. nKK n.K. nK. n. ... .... Tabla 3.1: Tabla de contingencia. Purity A cada grupo se asigna el cluster con más elementos comunes, se obtiene mediante el número de objetos correctamente asignados divididos por el número total de objetos N , [63].. 24.
(39) K 1 X máx |gi ∩ cj | purity(G, C) = N i=1 1≤j≤K. (3.25). donde G = {g1 , g2 , ..., gK } es el conjunto de grupos y C = {c1 , c2 , ..., cK } es el conjunto de clusters. Cluster Similarity Measure (CSM) Sea G = {g1 , g2 , ..., gK } y C = {c1 , c2 , ..., cK } conjuntos de K clusters, Cluster Similarity Measure (CSM) se define como [60] [58]:. K 1 X máx Sim(gi , cj ) CSM (G, C) = K i=1 1≤j≤K. donde Sim(gi , cj ) =. T 2|gi cj | |gi |+|cj |. (3.26). y | · | denota la cantidad de elementos.. Normalized Mutual Information (NMI) Sea G = {g1 , g2 , ..., gK } y C = {c1 , c2 , ..., cK } conjuntos de K. Con el fin de hacer un balance entre la calidad de la agrupación en función del número de clusters, se ha propuesto el uso de Normalized Mutual Information (NMI) [64] [58].. I(G, C) N M I(G, C) = p H(G)H(C). (3.27). P P P (gi ∩cj ) donde I(G, C) = i j P (gi ∩ cj ) log P (gi )P (cj ) es información mutua, H(G) = P P − i P (gi ) log P (gi ) es la entropı́a de G, H(C) = − j P (cj ) log P (cj ) es la entropı́a de C, P (gi ) es la probabilidad de que objeto este en el grupo gi , P (cj ) es la probabilidad de que el objeto este en el cluster cj y P (gi ∩ cj ) son las probabilidades de que un documento esté en la intersección de gi y cj . Por otro lado, [63] propone obtener tal medida de calidad de la siguiente forma.. N M I(G, C) =. I(G, C) [H(G) + H(C)]/2. (3.28) 25.
(40) Entropy Dado un cluster cj de tamaño |cj |, la entropı́a se define como [65]:. Entropy =. K X |cj | j=1. T |gi cj | i=1 |cj |. PK. donde E(cj ) = − log1K. log. T |gi cj | |cj |. N. E(cj ). (3.29). y N es igual al número total de series. temporales. La solución de un algoritmo de clustering será casi perfecta cuando cada cluster es asignado a su grupo correspondiente (la entropı́a se acerca a 0).. A partir de una matriz de confusión. Se denomina matriz de confusión a la representación tabular en la Tabla 3.2, que se puede obtener a partir de una tabla de contingencia, Tabla 3.1, mediante las siguientes operaciones:. TP = a =. P. FN = b =. P. ij. i. nij 2 ni. 2. . . es el número de pares en el mismo grupo y el mismo cluster. −. P. ij. nij 2. . es el número de pares en el mismo grupo pero no en. nij 2. es el número de pares en el mismo cluster pero no. el mismo cluster FP = c =. P. j. n.j 2. . −. P. ij. . en el mismo grupo TN = d =. n 2. . − a − b − c es el número de pares que no están en el mismo grupo ni. tampoco en el mismo cluster. donde nij representa el número de elementos de la intersección del grupo gi y cluster cj , ni. es el número de elementos del grupo gi y n.j es el número de elementos en el cluster cj 26.
(41) Grupos. Si No. clusters Si No TP = a FN = b FP = c TN = d. Tabla 3.2: Matriz de confusión Rand Index (RI) Una alternativa de evaluación de clustering es verla como una serie de decisiones, una para cada uno de los N2 = N (N − 1)/2 pares de objetos de toda la colección. Rand Index (RI) se puede expresar de la siguiente forma [63].. RI =. TP + TN TP + FP + FN + TN. Adjusted Rand Index(ARI) El problema con Rand Index es que el valor esperado de dos particiones aleatorias no toma un valor constante (cero). El valor ajustado del ı́ndice Rand está dado por [66]:. ARI =. (b+a)(c+a) a+b+c+d [(b+a)+(c+a)] − (b+a)(c+a) 2 a+b+c+d. a−. (3.30). donde a = T P , b = F N , c = F P y d = T N . Jaccard score Está dado por [58]:. Jaccard =. a a+b+c. (3.31). donde a = T P , b = F N y c = F P Folkes and Mallow index(FM). 27.
(42) Está dado por [58]: r FM =. a a a+ba+c. (3.32). donde a = T P , b = F N y c = F P F-measure Está dado por [63]: Fβ = donde P =. 3.4.. TP , T P +F P. R=. TP T P +F N. (β 2 + 1)P R β 2P + R. yβ>1. Proyección multidimensional de series temporales. Proyección multidimensional es una aplicación de reducción de dimensionalidad en visualización. La particularidad es que el espacio de reducción objetivo es 1D, 2D o 3D con el objetivo de facilitar el análisis visual [67] [68]. Formalmente, sea X = {x1 , . . . , xn } un espacio de dimensión m y Y = {y1 , . . . , yn } es un espacio de dimensión d, una técnica de proyección multidimensional puede ser representado por una función: f : X → Y tal que |δ(xi , xj ) − d(f (xi ), f (xj ))| sea lo más próximo a 0 (cero) ∀xi , xj ∈ X [69]. Para evaluar la calidad de una técnica de proyección, se calcula el coeficiente de stress normalizado [69].. sP stress =. − δ(xi , xj ))2 2 i<j d(f (xi ), f (xj )). i<j (d(f (xi ), f (xj )). P. En la literatura existen varios métodos de proyección muldidimensional no lineal: LSP [69], PLMP [68], LAMP [70], PLP [71], LLE [72] y FASTMAP [73]. 28.
(43) 3.5.. Autoencoder. El autoencoder es un tipo de red neuronal artificial cuyo aprendizaje es “no supervisado”. La peculiaridad es que tiene un comportamiento similar al análisis de componentes principales Principal Component Analysis (PCA) y Singular Value Decomposition (SVD) en la reducción de la dimensionalidad [1]. La arquitectura de esta red neuronal consiste de tres capas: la capa de entrada x, la capa oculta h y la capa de salida x b. Estas capas están conectadas a través de las matrices W (1) y W (2) , que representan los pesos. La capa oculta y la capa de reconstrucción tienen vectores de sesgo (bias) b(1) y b(2) , respectivamente.. X hj = σ( Wji1 xi + b1j ) i. x bi =. X. Wij2 hj + b2i. j. donde σ(.) es la función de activación. Sea θ = (W 1 , W 2 , b1 , b2 ), la función de costo a ser minimizada se expresa como:. N m 1 X X (n) (n) J(θ) = (xi − x bi )2 2N n i. (3.33). donde N es el número de ejemplos de entrenamiento. Para evitar sobreajuste (overfitting) se agrega regularización a la función costo.. N m 1 X X (n) α (n) J(θ) = (xi − x bi )2 + kW k22 2N n i 2. (3.34). 29.
(44) Figura 3.1: Ilustración de una arquitectura autoencoder donde αkW k22 es una función de regularización. Entonces los parámetros son obtenidos por backpropagation al resolver el problema de minimización.. θ = arg mı́n J(θ) θ. (3.35). Hay varias variaciones del autoencoder tales como denoising autoencoder [7], variational autoencoder [74] y sparse autoencoder [75],. 3.5.1.. Denoising autoencoder. Denoising autoencoder es similar al autoencoder tradicional [25]. La diferencia radica en que la señal de entrada es una modificación de señal original mediante una función que añade ruido x = qD (y) y se fuerza la salida para que sea igual a la señal original. Definitivamente se pueden agregar varios tipos de ruido dependiendo del problema. 30.
(45) Figura 3.2: Representación gráfica de denoising autoencoder La función de costo a ser minimizada se expresa de la misma forma que el autoencoder tradicional.. J(θ) =. N m 1 X X (n) α (n) (yi − x bi )2 + kW k22 2N n i 2. (3.36). 31.
(46) Capı́tulo 4. Reducción de la dimensionalidad mediante multi-layer autoencoder La propuesta de este trabajo, Figura 4.1, empieza con los datos climáticos organizados en forma de series temporales con resolución temporal mensual (por ejemplo datos mensuales recolectados mediante instrumentos in-situ). Enseguida, pasa por el proceso de llenado de valores perdidos, luego por estandarización y termina con reducción de la dimensionalidad con autoencoder. Debido a muchos factores relacionados con el funcionamiento y su localización geográfica de los instrumentos de medición, los datos climáticos están incompletos (valores faltantes), presentan ruidos y son inconsistentes (datos contradictorios). Los dos primeros se pueden mitigar con el llenado de valores perdidos y estandarización, en cambio las inconsistencias necesitan un tratamiento especial.. 4.1.. Llenado de valores perdidos. El llenado de valores perdidos tiene en cuenta el patrón anual (por ejemplo: todos los años la temperatura tiene el mismo comportamiento). Por lo tanto, el valor particular de un determinado mes es obtenido a partir del promedio de otros años de ese mes particular, Figura 4.2. 32.
(47) Figura 4.1: Esquema de la propuesta.. Figura 4.2: Rellenado de valores faltantes.. 33.
(48) Supongamos que la serie temporal consiste de mediciones mensuales de temperatura promedio. El procedimiento para completar los datos faltantes serı́a el siguiente:. La serie temporal es dividida cada 12 meses obteniéndose subsecuencias. Se forma una matriz en la que las filas son años (subsecuencias obtenidas del anterior paso) y las columnas los meses. Se obtiene el promedio de cada columna solamente con los valores que se tiene (sin considerar los valores perdidos). El promedio reemplaza cada valor faltante de la columna. La matriz se acomoda nuevamente como serie temporal.. 4.2.. Transformación de datos: Estandarización. La representación de series temporales posiblemente sea el componente clave para el éxito de cualquier análisis en series temporales. Una estrategia es considerar la serie temporal ya de por sı́ como una representación. Su utilidad ha sido probado ya anteriormente por otros investigadores [76] en clustering y clasificación. Las series temporales climáticas se acomodan en una matriz S = {s1 , s2 , . . . , sM }. Luego, se procede a estandarizar los datos con µ = 0 y σ = 1.. xtransf ormado =. s − µ(s) σ(s). (4.1). donde s es cada serie temporal del conjunto S = {s1 , s2 , ..., sM }, µ(s) y σ(s) son la media y desviación estándar de los valores de la serie temporal respectivamente.. 34.
(49) Tabla 4.1: Configuración de Parámetros optimizer learning rate loss function epochs batch size. parámetros de multi-layer autoencoder Valor = rmsprop = 0.001 = mean squared error = 100 = 20. Figura 4.3: Arquitectura del multilayer autoencoder. 4.3.. Reducción de la dimensionalidad. La configuración de los parámetros de la red neuronal multi-layer autoencoder están especificados en la Tabla 4.1. Además, la función de activación variará de acuerdo a la capa. La capa de entrada, la capa oculta que se ubica en el centro de la red neuronal y la capa de salida tendrán la función de activación lineal (linear ). Mientras que las demás capas tendrán la función de activación no lineal (tanh). La arquitectura de nuestra red estará dado por la Figura 4.3. La primera y tercera capa oculta tienen el doble de la dimensión de la serie temporal: D - 2*D - 2 - 2*D - D.. 35.
(50) Capı́tulo 5. Evaluación de la capacidad del multi-layer autoencoder La evaluación se ha llevado a cabo por su capacidad en la reducción de la dimensionalidad lineal y no lineal.. 5.1.. 5.1.1.. Reducción de la dimensionalidad lineal. Capacidad de reducción de la dimensionalidad a través de calidad de clustering. Base de datos: Se ha usado la base de datos synthetic control que es parte de UCR Time Series Classification Archive [77]1 . La base de datos tiene dimensión 60 y contiene 6 tipos de series temporales (Normal, Cyclic, Increasing trend, Decreasing trend, Upward shift y Downward shift), Figura 5.1. Para evaluar la capacidad del multilayer autoencoder (ML AE ), se analiza la calidad de clustering. Se compara con otras técnicas de reducción de dimensionalidad lineal y con el valor ideal (obtenido antes de aplicar el método de reducción). Debido a que existen 1. UCR Time Series Classification Archive contiene un total 85 base de datos de series temporales. 36.
(51) Figura 5.1: Base de datos synthetic control una diversidad de medidas de calidad de clustering, solamente se muestra los resultados para un subconjunto de tales medidas: cluster purity, entropy, jaccard score y rand index. Con respecto a cluster purity, Figura 5.2, los métodos de reducción de dimensionalidad tienen casi el mismo comportamiento. Pero algunos pueden representar las series temporales con pocas dimensiones de 4 a 10 (AE, ML AE, PCA, SVD). Los demás tienen un comportamiento oscilatorio al reducir a diferentes dimensiones. El multilayer autoencoder (ML AE ) parece ser más estable que el autoencoder tradicional (AE ). En el caso de la entropy, Figura 5.3, se observa que todas las técnicas de reducción tienen un comportamiento oscilatorio con pocas dimensiones. Aun ası́, la mayorı́a puede representar con pocas dimensiones de 4 a 6 excepto IPLA y DWT. Todas se aproximan al ideal excepto IPLA que empeora al aumentar las dimensiones. El autoencoder al parecer es inestable entre las dimensiones 10 y 30, en cambio multilayer autoencoder mantiene su estabilidad en todas las dimensiones excepto al inicio y al final. En jaccard score, Figura 5.4, se observa que CP y DCT sobrepasan al valor ideal en 37.
(52) Figura 5.2: Cluster purity. Figura 5.3: Entropy. 38.
(53) Figura 5.4: Jaccard score algunas dimensiones iniciales (entre 4 y 7 aproximadamente). La mayorı́a de las técnicas mejoran su performance a medida que aumentan las dimensiones excepto IPLA. Casi todas las técnicas de reducción con pocas dimensiones pueden representar adecuadamente las series temporales. Finalmente el coeficiente rand index, Figura 5.5, refleja claramente las diferencias que previamente se ha estado afirmando. Todas mejoran a medida que va aumentando las dimensiones menos IPLA. A pesar de eso, IPLA con pocas dimensiones (hasta 5) puede representar las series temporales lo cual es bueno para cualquier análisis posterior. En resumen, hay variabilidad en las medidas de calidad de clustering de los métodos de reducción de dimensionalidad. No todos los métodos de reducción se desempeñan de misma forma (por ejemplo IPLA empeora a mayor dimensión). A pesar de eso, casi todas las técnicas de reducción pueden representar con pocas dimensiones la serie original. Además, multilayer autoencoder es competitivo con otras técnicas de reducción de la dimensionalidad y es bastante cercana al valor ideal.. 39.
(54) Figura 5.5: Rand index. 5.2.. 5.2.1.. Reducción de la dimensionalidad no lineal. Comparación de la proyección bidimensional de la base de datos CBF. Base de datos: Se toma la base de datos CBF, Figura 5.6, que forma parte del conjunto de base de datos UCR Time Series Classification Archive. CBF tiene 3 tipos de series temporales (Cylinder, Bell y Funnel ) con longitud 128 cada una. La proyección LLE, Figura 5.7, muestra claramente los tres grupos. Al parecer dos grupos están superpuestas en una misma recta (color rojo oscuro y amarillo). Mientras el otro grupo tiene un comportamiento diferente (color rosado). En cambio, la proyección FASTMAP, Figura 5.8 muestra los tres grupos dispersos sobre dos lı́neas. Al parecer no logra diferenciar o discriminar las series temporales ade-. 40.
(55) Figura 5.6: CBF. Figura 5.7: LLE: Dos de los tres grupos se sobreponen.. 41.
(56) Figura 5.8: FASTMAP: Los tres grupos están dispersos sobre dos rectas. cuadamente debido a que no ha podido capturar las caracterı́sticas intrı́nsecas de estos grupos. En el caso del autoencoder, Figura 5.9, a pesar de que los grupos están dispersas en el espacio de visualización, todavı́a algunos de ellos se sobreponen y por tanto no tienen una frontera definida los grupos. Al parecer el autoencoder tradicional no logra capturar las caracterı́sticas necesarias en sus respectivas dos dimensiones para descriminar completamente los grupos. Pero en multilayer autoencoder, Figura 5.10, se observa que los grupos están bien separadas con sus respectivas fronteras. Por tanto, este método provee mejor visualización que otras técnicas no lineales (LLE y FASTMAP) e inclusive AE2 . 2. No varia mucho los resultados si usa una función activación lineal o no lineal en un autoencoder tradicional. 42.
(57) Figura 5.9: Autoencoder : Los tres estan superpuestas sin ninguna frontera definida.. Figura 5.10: Multi-layer autoencoder : Los tres grupos estan bien definidos con frontera.. 43.
(58) Figura 5.11: El AE y ML AE tienen un stress promedio mejor que otras técnicas de proyección, pero presentan mayor variabilidad.. 5.2.2.. Comparación con técnicas de reducción de dimensionalidad no lineales LLE y FASTMAP. Base de datos: Se ha usado el conjunto de base de datos de UCR Time Series Classification Archive [77] que contiene 85 bases de datos de diversos problemas de clasificación de series temporales. La apreciación visual que se ha hecho sobre las proyecciones de la base de datos CBF es subjetiva. Asi que una forma de evaluación objetiva y cuantitativa es a través del stress. Se procede a determinar el stress de todas las bases de datos del UCR Time Series Classification Archive (85 bases de datos) para mostrar el diagrama de cajas Box Plot, Figura 5.11. Se observa que las técnicas basadas en autoencoder tiene mejor valor de stress (≈ 0) en promedio que los métodos no lineales. A pesar de que nuestra propuesta provee mayor variabilidad en los resultados del stress, el stress promedio continua siendo mejor que el autoencoder tradicional. 44.
(59) Figura 5.12: Al aumentar el número de capas el stress promedio aumenta y su variabilidad disminuye.. 5.2.3.. Análisis de la influencia del número de capas en ML AE. Base de datos: Bases de datos de UCR Time Series Classification Archive [77]. Se agregó diferente número de capas alrededor de la capa central del autoencoder tradicional: 2, 4, 6 y 8, Figura 5.12, para determinar la influencia de número de capas en el stress. El número de unidades está dado por:. ML AE: D - 2*D - 2 - 2*D - D (3 capas ocultas) ML AE3: D - 2*D - D - 2 - D - 2*D - D (5 capas ocultas) ML AE4: D - 2*D - D - D/2 - 2 - D/2 - D - 2*D - D (7 capas ocultas) ML AE5: D - 2*D - D - D/2 - D/4 - 2 - D/4 - D/2 - D - 2*D - D (9 capas ocultas). Se observa que al aumentar el número de capas aumenta el stress y disminuye su variabilidad. Esto se debe a que la red neuronal al poseer muchas capas se vuelve compleja y los pesos son difı́cil de actualizar eficientemente con el algoritmo de backpropagation. 45.
(60) Figura 5.13: El multilayer autoencoder (ML AE) provee mayor estabilidad que usando estrategias de pre-entrenamiento.. 5.2.4.. Análisis de la influencia de estrategias de pre-entrenamiento en ML AE. Base de datos: UCR Time Series Classification Archive [77]. Se uso diferentes estrategias de pre-entrenamiento en el multilayer autoencoder(ML AE), Figura 5.13, para determinar su influencia en el stress.. ML AE: Simplemente un multilayer autoencoder. SAE + ML AE: Un multilayer autoencoder inicializados los pesos por SAE (Stacked autoencoder ) SDAE + ML AE: Un multilayer autoencoder inicializados los pesos con SDAE (Stacked denoising autoencoder ).. Se observa que el stress promedio de los tres casos es casi similar. Sin embargo, la diferencia está en que ML AE provee menor variabilidad en todas las bases de datos. 46.
(61) Capı́tulo 6. Caso de estudio: Temperatura promedio del Perú. 6.1.. Base de datos: NOAA. Se extrajeron datos climáticos del Perú desde la base de datos NOAA [78]. En total la información extraı́da consiste de 32 estaciones de observación climática (observaciones in-situ). Esta información pasó por etapas de pre-procesamiento debido a que no estaba completa y presentaban mucha variabilidad. El resultado después del llenado de datos faltantes se observa en la Figura 6.1. Luego, se usa estandarización para disminuir la variabilidad. Cabe resaltar que los datos son solamente temperatura promedio mensual de 32 diferentes lugares del paı́s. Luego, se procede con la reducción de la dimensionalidad con nuestro propuesta. La reducción se realiza hacia un espacio 2D con fines de visualización, Figura 6.2. Nuestra propuesta provee una visualización que logra discriminar en dos grandes grupos, aunque lo ideal serı́a que muestre tres grupos separados. El grupo de la izquierda (puntos de color morado) que representa a la costa, está totalmente separada del grupo de la derecha que son la sierra (puntos de color verde) y selva (puntos de color amarillo) del Perú. Por alguna razón la sierra y la selva son agrupados como similares. Mayor información deberı́a obtenerse a través de interacción y usando otras técnicas de visualización.. 47.
(62) Figura 6.1: Temperatura promedio de 32 estaciones localizadas en Perú (NOAA).. 6.2.. Base de datos: MetOffice. Se extrajeron temperatura promedio (TAVG) del Perú de MetOffice [79]. En total información de 41 estaciones de diferentes lugares del Perú. Similarmente, estos datos pasaron por una etapa de pre-procesamiento para completar información y reducir la variabilidad. El resultado del proceso de llenado de datos faltantes se observa en la Figura 6.3. Se observa que una de las series temporales tiene valores fuera de lo común (la serie temporal en color rojo). Luego, se realiza la estandarización para disminuir su variabilidad. Se procede a realizar la reducción de la dimensionalidad con nuestra propuesta del multi-layer autoencoder, Figura 6.4. Se pueden obtener diversas hipótesis: debido a que Tingo Maria está separado del resto, posiblemente, sea la serie temporal con el pico sobresaliente (outlier ) en la Figura 6.3, los datos de temperatura promedio de la sierra y. 48.
(63) Figura 6.2: Proyección multidimensional de series temporales de temperatura promedio del Perú obtenidas desde la NOAA con multi-layer autoenoder selva están relacionados por alguna razón, la temperatura promedio del clima de la costa no tiene relación con el resto del paı́s y además se observa que son organizados de arriba hacia abajo en el siguiente orden: costa, sierra y selva.. 49.
(64) Figura 6.3: Temperatura promedio de 41 estaciones localizadas en Perú (MetOffice [79]).. Figura 6.4: Proyección de temperatura promedio del Perú mediante multi-layer autoencoder. 50.
(65) Capı́tulo 7. Conclusiones. 7.1.. Conclusiones. Se ha llegado a las siguientes conclusiones al comparar con técnicas de reducción lineales y no lineales:. La reducción de la dimensionalidad mediante ML AE es competitiva con técnicas tradicionales de reducción de dimensionalidad en series temporales, debido a que provee mayor estabilidad (siempre está cerca del óptimo) en calidad de clustering en la base de datos synthetic control. En la visualización de la base de datos CBF, ML AE provee mejores resultados en stress que otras técnicas de reducción de dimensionalidad no lineales (LLE y FASTMAP ) e inclusive AE con función de activación no lineal.. Después de analizar diferentes estrategias de pre-entrenamiento y agregar diferente número de capas al ML AE, se concluye:. Al agregar mayor número de capas al AE, se observa que el stress promedio aumenta y su variabilidad disminuye. Por tanto, ML AE no necesita capas adicionales.. 51.
(66) A pesar de que el promedio del stress es similar al agregar estrategias de preentrenamiento, se observa que ML AE provee menor variabilidad en todas las bases de datos. Por tanto, no es necesario agregar estrategias de pre-entrenamiento.. 7.2.. Recomendaciones. La desventaja del ML AE es la lentitud de procesamiento. Aunque este es un problema natural de las redes neuronales, se puede acelerar con procesamiento paralelo (keras, theano y GPU).. 7.3.. Trabajos futuros. Se puede agregar estrategias pre-entrenamiento cuando el ML AE tiene mayor número de capas. Por ejemplo, de acuerdo a nuestros experimentos, cuando ML AE tiene 9 capas ocultas (ML AE5) brinda menor variabilidad, posiblemente se pueda reducir el stress promedio manteniendo esa variabilidad con estrategias de pre-entrenamiento. En este trabajo se enfocó principalmente en la reducción del aspecto temporal de los datos climáticos. Sin embargo, ML AE puede extender al aspecto espacial de los datos climáticos, ya que el autoencoder fue estudiado principalmente en reducción de dimensionalidad de imágenes. Por ejemplo, al reducir cada imagen a un valor se forma ası́ una serie temporal para cada parámetro climático.. 52.
Documento similar
Y tendiendo ellos la vista vieron cuanto en el mundo había y dieron las gracias al Criador diciendo: Repetidas gracias os damos porque nos habéis criado hombres, nos
E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi
d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que
Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y
De la Salud de la Universidad de Málaga y comienza el primer curso de Grado en Podología, el cual ofrece una formación generalista y profesionalizadora que contempla
Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..
La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de
El método propuesto por los autores en Amigó y otros (2008b), para detectar determinismo en series temporales con ruido, requiere contar patrones de orden visibles y desarrollar