Reducción de la dimensionalidad de series temporales climáticas usando Deep Multi Layer Autoencoder

Texto completo

(1)UNIVERSIDAD NACIONAL DE SAN AGUSTÍN DE AREQUIPA. ESCUELA DE POSGRADO UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERÍA DE PRODUCCIÓN Y SERVICIOS. ((REDUCCIÓN DE LA DIMENSIONALIDAD DE SERIES TEMPORALES CLIMÁTICAS USANDO DEEP MULTI-LAYER AUTOENCODER)). Tesis presentada por el Bachiller Reynaldo Alfonte Zapana, para obtener el Grado de Maestro en Ciencias Informática, con mención en Tecnologı́as de Información.. Asesor: Mg. Ana Marı́a Cuadros Valdivia. AREQUIPA - PERÚ 2018.

(2) ((REDUCCIÓN DE LA DIMENSIONALIDAD DE SERIES TEMPORALES CLIMÁTICAS USANDO DEEP MULTI-LAYER AUTOENCODER)) Reynaldo Alfonte Zapana. ii.

(3) Dedicatoria A mis padres por su tolerancia, por su apoyo, por sus consejos, por sus valores, por sus ejemplos de perseverancia y constancia que me han infundido siempre y por su amor que nunca olvidaré por el resto de mi vida.. iii.

(4) Agradecimientos. Agradezco a FONDECYT (Fondo Nacional de Desarrollo Cientı́fico, Tecnológico y de Innovación Tecnológica) por la subvención otorgada a través de cı́rculo de investigación N° 148-2015-CONCYTEC: “Cı́rculo de investigación en computación de alto desempeño con énfasis en el desarrollo de métodos y técnicas de mineria de datos de gran escala para el apoyo en investigaciones de cambio climático”. Agradezco profundamente a los profesores por darme la oportunidad de ser parte por primera vez de un proyecto de investigación, que me ha permitido desarrollar habilidades de investigación. Agradezco a los profesores y compañeros que formaron parte del cı́rculo de investigación con los que tuve anécdotas y compartı́ muchas ideas que me sirvieron posteriormente para mejorar la tesis. Agradezco de forma especial al profesor Cristian López del Alamo, Ana Maria Cuadros Valdivia y Alexander Ocsa Mamani por confiar y apoyar mi trabajo, y por fomentar la investigación.. iv.

(5) Resumen En este trabajo se propone un método basado en autoencoder para la reducción de la dimensionalidad de series temporales, el cual consiste en la configuración del número de capas y unidades. El método se comparó con técnicas de reducción de dimensionalidad lineales y no lineales. Además se provee dos casos de estudio para determinar relaciones en datos climáticos. Es importante la representación adecuada de las series temporales al momento de proceder a analizar con algoritmos de minerı́a de datos y aprendizaje automático. En series temporales hay una diversidad de técnicas de representación que a la vez hacen reducción de dimensionalidad. La representación más simple es considerar las series temporales ya de por sı́ como vector de caracterı́sticas. De acuerdo a nuestro conocimiento, el autoencoder ha sido ampliamente estudiado en imágenes más no en series temporales. Este trabajo constituye un primer paso para llevar estudios más elaborados en series temporales con autoencoder, especialmente de climatologı́a. Si bien existen estudios de otros tipos de redes neuronales Long Short-Term Memory Units (LSTMs) en análisis de series temporales, esos estudios no se relacionan con el autoencoder. Como parte de nuestros resultados se presenta: análisis de la capacidad de reducción de la dimensionalidad del método propuesto (multilayer autoencoder ) en series temporales de UCR Time Series Classification Archive a través de la calidad de clustering, análisis la capacidad en visualización a través del stress y análisis de dos casos de estudio en busca relaciones y similitudes en temperatura promedio de diferentes lugares en el Perú.. Palabras claves: Series temporales climáticas, autoencoder, aprendizaje profundo, visualización. v.

(6) Abstract In this work we propose a method based on autoencoder for the reduction of the dimensionality of time series, which consists of the configuration of the number of layers and units. The method was compared with linear and non-linear dimensionality reduction techniques. In addition, two case studies are provided to determine relationships in climate data. It is important to properly represent the time series when analyzing with data mining and machine learning algorithms. In time series there is a diversity of representation techniques that at the same time reduce dimensionality. The simplest representation is to consider the time series already as a vector of characteristics. According to our knowledge, autoencoder has been widely studied in images, not in time series. This work is a first step to carry more elaborate studies in time series with autoencoder, especially in climatology. Although there are studies of other types of neural networks Long Short-Term Memory Units (LSTMs) in analysis of time series, these studies are not related to the autoencoder. As part of our results we present: analysis of the dimensionality reduction capacity of the proposed method (multilayer autoencoder ) in time series of UCR Time Series Classification Archive through the quality of clustering, analysis of the capacity in visualization through stress and analysis of two case studies looking for relationships and similarities in average temperature of different places in Peru.. Keywords: Climatological time series, autoencoder, deep learning, visualization.. vi.

(7) Índice Página Resumen. V. Abstract. VI. Índice. VII. Índice de figuras. X. Índice de tablas. XII. Lista de abreviaturas. XIII. 1. Introducción. 1. 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4. Aportes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2. Trabajos relacionados. 6. 2.1. Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.1.1. Denoising autoencoder . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.2. Multilayer autoencoder . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.1.3. Deep autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. vii.

(8) 2.2. Estudios climáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3. Marco teórico. 14. 3.1. Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2. Reducción de la dimensionalidad de series temporales . . . . . . . . . . . . 15 3.2.1. Discrete cosine transform (DCT) . . . . . . . . . . . . . . . . . . . 16 3.2.2. Singular value decomposition (SVD). . . . . . . . . . . . . . . . . . 17. 3.2.3. Discrete wavelet transform (DWT) . . . . . . . . . . . . . . . . . . 17 3.2.4. Piecewise aggregate approximation (PAA) . . . . . . . . . . . . . . 18 3.2.5. Chebyshev polynomials (CP) . . . . . . . . . . . . . . . . . . . . . . 18 3.2.6. Indexable piecewise linear approximation (IPLA). . . . . . . . . . . 21. 3.2.7. Principal component analysis (PCA) . . . . . . . . . . . . . . . . . 22 3.3. Evaluación de técnicas de reducción de dimensionalidad . . . . . . . . . . . 23 3.3.1. Criterios externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.4. Proyección multidimensional de series temporales . . . . . . . . . . . . . . 28 3.5. Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.5.1. Denoising autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . 30 4. Reducción de la dimensionalidad mediante multi-layer autoencoder. 32. 4.1. Llenado de valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.2. Transformación de datos: Estandarización . . . . . . . . . . . . . . . . . . 34 4.3. Reducción de la dimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . 35. 5. Evaluación de la capacidad del multi-layer autoencoder. 36. 5.1. Reducción de la dimensionalidad lineal . . . . . . . . . . . . . . . . . . . . 36 5.1.1. Capacidad de reducción de la dimensionalidad a través de calidad de clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36. 5.2. Reducción de la dimensionalidad no lineal . . . . . . . . . . . . . . . . . . 40 5.2.1. Comparación de la proyección bidimensional de la base de datos CBF 40. viii.

(9) 5.2.2. Comparación con técnicas de reducción de dimensionalidad no lineales LLE y FASTMAP . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2.3. Análisis de la influencia del número de capas en ML AE . . . . . . 45 5.2.4. Análisis de la influencia de estrategias de pre-entrenamiento en ML AE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6. Caso de estudio: Temperatura promedio del Perú. 47. 6.1. Base de datos: NOAA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.2. Base de datos: MetOffice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7. Conclusiones. 51. 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7.3. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Bibliografı́a. 53. ix.

(10) Índice de figuras 2.1. Componentes e interacciones en el sistema climático[31]. . . . . . . . . . . 11 3.1. Ilustración de una arquitectura autoencoder. . . . . . . . . . . . . . . . . . 30. 3.2. Representación gráfica de denoising autoencoder . . . . . . . . . . . . . . . 31 4.1. Esquema de la propuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2. Rellenado de valores faltantes. . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3. Arquitectura del multilayer autoencoder 5.1. Base de datos synthetic control. . . . . . . . . . . . . . . . . . . . 35. . . . . . . . . . . . . . . . . . . . . . . . . 37. 5.2. Cluster purity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.3. Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.4. Jaccard score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.5. Rand index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.6. CBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.7. LLE: Dos de los tres grupos se sobreponen. . . . . . . . . . . . . . . . . . . 41 5.8. FASTMAP: Los tres grupos están dispersos sobre dos rectas. . . . . . . . . 42 5.9. Autoencoder : Los tres estan superpuestas sin ninguna frontera definida. . . 43 5.10. Multi-layer autoencoder : Los tres grupos estan bien definidos con frontera.. 43. 5.11. El AE y ML AE tienen un stress promedio mejor que otras técnicas de proyección, pero presentan mayor variabilidad. . . . . . . . . . . . . . . . . 44 5.12. Al aumentar el número de capas el stress promedio aumenta y su variabilidad disminuye. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.13. El multilayer autoencoder (ML AE) provee mayor estabilidad que usando estrategias de pre-entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . 46 x.

(11) 6.1. Temperatura promedio de 32 estaciones localizadas en Perú (NOAA). . . . 48 6.2. Proyección multidimensional de series temporales de temperatura promedio del Perú obtenidas desde la NOAA con multi-layer autoenoder . . . . . . . 49 6.3. Temperatura promedio de 41 estaciones localizadas en Perú (MetOffice [79]). 50 6.4. Proyección de temperatura promedio del Perú mediante multi-layer autoencoder. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50. xi.

(12) Índice de tablas 3.1. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1. Configuración de parámetros de multi-layer autoencoder. xii. . . . . . . . . . . 35.

(13) Lista de abreviaturas AE. :. Auto Encoder. AO. :. Arctic Oscillation. ARI. :. Adjustable Rand Index. CNN. :. Convolutional Neural Network. CP. :. Chebyshev Polynomials. CSM. :. Cluster Similarity Measure. DAE. :. Denoising Auto Encoder. DBN. :. deep belief network. DCT. :. Discrete Cosine transform. DNN. :. Deep Neural Network. DWT. :. Discrete Wavelet Transform. EOF. :. Empirical Orthogonal Function. FERET. :. Facial Recognition Technology database. FM. :. Folkes-Mallow index. GPU. :. Graphics Processing Unit. IPLA. :. Indexable Piecewise Linear Approximation. JPEG. :. Joint Photographic Experts Group. LAMP. :. Local affine multidimensional projection. LDA. :. Linear discriminant analysis. LLE. :. Locally linear embedding. LSA. :. latent semantic analysis. xiii.

(14) LSP. :. Least square projection. Met Office. :. Meteorological Office. ML AE. :. Multi Layer Auto Encoder. MLP. :. Multilayer perceptron. MNIST. :. Modified National Institute of Standards and Technology database. MPEG. :. Moving Picture Experts Group. MSE. :. Multi-Scale Entropy. NLPCA. :. Nonlinear PCA. NMI. :. Normalized Mutual Information. NOAA. :. National Oceanic and Atmospheric Administration. PAA. :. Piecewise Aggregate Approximation. PCA. :. Principal component analysis. PLP. :. Piecewise Laplacian-based projection. RBM. :. Restricted Boltzmann Machine. ReLu. :. Rectified Linear Unit. RI. :. Rand Index. SAE. :. Stacked Auto Encoder. SDAE. :. Stacked Denoising Auto Encoder. STDM. :. Spatio-Temporal Data Mining. SVD. :. Singular value decomposition. TAVG. :. Temperature Average. xiv.

(15) Capı́tulo 1. Introducción Autoencoder (AE) ha recibido mucha atención en los últimos años debido a su capacidad de capturar caracterı́sticas relevantes de los datos, lo cual es de gran importancia en muchas áreas del conocimiento. AE se distingue de las redes neuronales tradicionales por poseer exactamente tres capas (entrada, oculta y salida), en el cual el número de unidades de la capa de entrada es igual al número de unidades de la capa de salida [1]. Las ventajas son obvias ya que provee una representación compacta de los datos al tener el número de unidades de capa oculta mucho menor que la entrada. Además, se ha demostrado que puede detectar estructuras repetitivas [2] [3]. Sin embargo, no logra capturar caracterı́sticas no lineales y complejas de los datos. Una forma de fortalecer el AE es a través de la incorporación de más capas ocultas alrededor de la capa oculta central y del uso de funciones de activación no lineales: tangente hiperbólica, sigmoidal o ReLU. Por ejemplo, Kramer [4] mostró que al agregar más capas con funciones de activación no lineal (sigmoidal) se mejora el error de reconstrucción y se captura correlaciones tanto lineales como no lineales y recientemente se ha introducido un paso previo al entrenamiento, en el cual se inicializan los pesos con una estrategia no supervisada RBM [5], AE [6], DAE [7]. Sin embargo, a pesar de que con esta configuración se ha logrado mejorar la reducción de la dimensionalidad, mostrar su potencia en visualización e incluso apoyar en el análisis exploratorio de los datos, ha habido poco interés en determinar la mejor configuración de parámetros del AE.. 1.

(16) Por otro lado, los estudios climáticos han tomado mucha relevancia en los últimos años no solamente por parte de los climatólogos sino también por investigadores de otras áreas, organismos internacionales e instituciones del estado. Los estudios climáticos consisten principalmente de análisis estadı́stico [8] [9] [10] y dependen mucho de los datos obtenidos por instrumentos o estrategias de recolección [11]. Estos estudios tienen mucha utilidad para la toma de decisiones, prevención ante desastres naturales, agricultura, silvicultura, planificación urbana, conservación de la naturaleza, gestión del agua, suministro de energı́a, turismo, etc. Sin embargo, no se tienen suficientes herramientas para llevar a cabo sus estudios. Una forma de reforzar los estudios climáticos es incorporando conocimientos de computación y ha habido estudios que han usado técnicas computacionales. Por ejemplo, Faghmous [12] propone un método para identificar remolinos oceánicos de meso-escala a partir de datos satelitales, Zhang [13] propone un método basado en Haar para analizar la Arctic Oscillation (AO) que es un aspecto clave de la variabilidad climática en el hemisferio norte, Sips [14] aborda el problema de identificación patrones en series temporales medioambientales y recientemente con técnicas más sofisticadas de deep learning, Liu [15] propone un método para detectar eventos extremos de los datos climáticos. Sin embargo, todavı́a existe una gran brecha entre el área de la computación y el campo de la climatologı́a, por tanto, faltan incorporar los estudios computacionales que están muy avanzados en estudios climáticos.. 1.1.. Motivación. El objetivo de estudiar datos climáticos es entender los fenómenos climáticos y realizar pronósticos. Para esto existen dos estrategias. La primera forma es encontrar en el pasado patrones climáticos similares a los actuales. La segunda forma es determinar ubicaciones fı́sicas (localizaciones) que tienen un comportamiento similar. Aunque estas formas no nos 2.

(17) den un valor exacto, son definitivamente un punto de partida para estudios más elaborados de análisis y pronóstico los datos climáticos. Lo habitual es que los datos del clima sean abordados por métodos estadı́sticos por climatólogos [8] [9], pero también se pueden abordar desde la perspectiva computacional con métodos de minerı́a de datos [12], visualización [14] [16] [17] [18] y aprendizaje automático. Los datos climáticos pueden ser de alta dimensionalidad en su aspecto temporal y espacial y contener diferentes tipos ruidos, haciendo que las técnicas de minerı́a de datos se vuelvan ineficientes en el momento de procesar la información [19] e incluso requiriendo alto costo computacional al procesar, punto a punto, las series temporales. Para llevar a cabo estos estudios desde la perspectiva computacional de forma satisfactoria es necesario considerar las variables en sus diferentes rangos temporales y resoluciones espaciales. La forma más habitual de abordar estas caracterı́sticas es a través de la reducción de la dimensionalidad. Las ventajas de la reducción de la dimensionalidad son variadas [20] [21] [22]:. Disminuye el costo computacional, ya que la serie temporal es representada por un vector de caracterı́sticas (representación compacta) que contiene información relevante. Como consecuencia de la representación compacta, disminuye el uso de memoria haciendo posible el procesamiento de gran cantidad de series temporales. En la mayorı́a de los casos mejora la calidad de los resultados de minerı́a de datos al disminuir el ruido inherente en los datos.. 3.

(18) 1.2.. Problema. La alta dimensionalidad de los datos climáticos disminuye la performance de los algoritmos de minerı́a de datos [19] [23]. Los algoritmos de minerı́a de datos muchas veces no son escalables a la alta dimensionalidad de los datos y su costo computacional es directamente proporcional a la longitud de series temporales. De acuerdo al estado del arte, hay muchas propuestas del autoencoder aplicados en reducción de la dimensionalidad de imágenes [5] [2] [3] [24], pero no hay estudios que evalúen la red neuronal autoencoder como técnica de reducción de dimensionalidad de series temporales.. 1.3.. 1.3.1.. Objetivos. Objetivo general. Desarrollar un método basado en autoencoder para la reducción de la dimensionalidad de series temporales climáticas.. 1.3.2.. Objetivos especı́ficos. Proponer un método basado en autoencoder para reducción de la dimensionalidad de series temporales. Analizar casos reales con datos del clima obtenidos de Met Office y NOAA a través de reducción de la dimensionalidad.. 4.

(19) 1.4.. Aportes. Este trabajo tiene las siguientes contribuciones:. Un método basado en autoencoder para reducción de la dimensionalidad de series temporales. Análisis de la temperatura media del Perú con datos del clima obtenidos de Met Office y NOAA.. 1.5.. Estructura de la tesis. Este trabajo está estructurado de la siguiente manera:. En el Capı́tulo 2 se presentan los trabajos relacionados. Principalmente, el uso del autoencoder en sus diferentes formas. En el Capı́tulo 3 se presenta el marco teórico. Se provee información de técnicas de reducción de dimensionalidad tradicionales tanto lineales como no lineales. En el Capı́tulo 4 se presentan los pasos de nuestra propuesta para llevar a cabo la reducción de la dimensionalidad. En el Capı́tulo 5 se presentan los resultados de evaluación de nuestra propuesta con series temporales de la UCR Time Series Classification Archive. En el Capı́tulo 6 se presentan dos casos de estudio con datos del clima reales con el objetivo de analizar y encontrar algunos patrones climáticos. Finalmente, en el Capı́tulo 7 se presentan las conclusiones, recomendaciones y trabajos futuros. 5.

(20) Capı́tulo 2. Trabajos relacionados. 2.1.. Autoencoder. El autoencoder (AE) ha jugado un rol muy importante en el área de aprendizaje automático (machine learning). No solo en la reducción de la dimensionalidad, sino también como inicializador de pesos de redes neuronales profundas. Logrando en la mayorı́a de los casos valores óptimos de los parámetros lo cual influye directamente en cualquier tarea posterior (clasificación, clustering, etc.) Boullard [1] demuestra analı́ticamente que independientemente de la función de activación (lineal o no lineal) de la capa oculta del autoencoder, los parámetros (pesos y bias) pueden ser aproximados mediante factorización de matrices SVD. Estos parámetros obtenidos son óptimos debido a que no pueden ser mejorados a través de las iteraciones del algoritmo backpropagation. Wang [2] [3] compara el autoencoder con PCA, LDA, LLE e Isomap en la reducción de la dimensionalidad de bases de datos sintéticos (funciones bidimensionales y tridimensionales). En su análisis, observa que difiere de otros métodos en la reducción de la dimensionalidad, ya que al parecer pueden detectar estructuras repetitivas. Además, en otro de sus experimentos el autoencoder se compara con PCA en la proyección bidimensional de base de datos de imágenes MNIST. En los resultados, el autoencoder funciona. 6.

(21) mejor que PCA, ya que tiende a proyectar imágenes de la misma clase en los bordes y esquinas del espacio de visualización. Asimismo, analiza la capacidad de clasificación en base al número de nodos en la capa oculta con Softmax classifier. En clasificación de imágenes MNIST, se observa que mejores resultados se obtienen cuando la cantidad de nodos se estable alrededor de la dimensionalidad intrı́nseca del conjunto de datos (10 nodos). Sin embargo no se puede decir lo mismo en la clasificación de imágenes Olivetti face, debido a que requiere más nodos.. 2.1.1.. Denoising autoencoder. Una variación del autoencoder tradicional es denoising autoencoder (DAE), el cual introduce un nuevo parámetro llamado factor de ruido que es aplicado a los datos de entrada antes de ser ingresados a la red neuronal. El valor de este parámetro debe ser seleccionado con cuidado de acuerdo al problema a estudiar [25]. DAE tiene como datos de entrada señales con ruido y como salida se fuerza a que reconstruya la señal original, con esto se intenta encontrar patrones más compactas que los obtenidos por el autoencoder tradicional. Denoising autoencoder (DAE) ha tomado mucha atención como estratergia de preentrenamiento de redes neuronales profundas. Por ejemplo, Vincent [7] [25] realiza una comparación de estrategias de preentrenamiento SDAE, SAE, RBM en una MLP de tres capas ocultas en problemas clasificación. En la mayorı́a de los casos (variaciones del MNIST), SDAE es la mejor estrategia que SAE y RBM. Además, analiza la influencia de hiper parámetros (número de capas, unidades ocultas en cada capa y el nivel de ruido) de la MLP. Se determina que a más capas (en este caso 3 capas, la estrategia de preentrenamiento SDAE brinda mejores resultados de clasificación de imágenes (variación de MNIST), SDAE se desempeña mejor que SAE para ciertos niveles de ruido (el conocimiento previo de los datos en estudio permite determinar el nivel de ruido). La. 7.

(22) mejor configuración en este caso es salt-pepper noise + SDAE. Finalmente, al comparar SAE, SDAE y DBN en reconstrucción de imágenes MNIST. Se observa que SDAE y DBN tienen la misma variabilidad en reconstrucción de imágenes. Las caracterı́sticas obtenidas por denoising autoencoder (DAE) y PCA no son similares. Ambos tienen la capacidad extraer caracterı́sticas relevantes, pero DAE logra obtener otras caracterı́sticas adicionales [26]. Se ha logrado mejorar la clasificación de una red neuronal multicapas al inicializar los pesos con stacked denoising autoencoders (SDAE) [27]. Primero, se entrenan denoising autoencoders secuencialmente uno después del otro. Luego, estos pesos se convierten en valores iniciales de la red neuronal multicapas. Finalmente, se entrena como si fuera un clasificador. En los resultados, se observa que esta estrategia provee mejor performance que Feedfoward neural network y Logistic.. 2.1.2.. Multilayer autoencoder. Kramer [4] hace una comparación de PCA, autoencoder y NLPCA. NLPCA es una red neuronal autoencoder con 3 capas ocultas (multilayer autoencoder ). En sus resultados, NLPCA provee menor error de reconstrucción siendo mejor que PCA y autoencoder. Al agregar más nodos a las capas ocultas, se mejora aún más el error de reconstrucción. Después de obtener el vector de caracterı́sticas de las imágenes con multilayer autoencoder (ML AE), estos son usados como entrada a deep neural network (DNN) [28]. Las bases de datos de imágenes (MNIST y FERET) son codificadas en vector de 64 dimensiones por un ML AE. Luego, estos vectores sirven de entrada a clasificadores: shallow neural network (Perceptron), deep neural network (DNN) y deep belief network (DBN). Como resultado, DBN es mejor en clasificación, pero al incrementar el nivel de ruido, DNN es mejor que DBN. Ambas arquitecturas profundas se desempeñan mejor que perceptron. 8.

(23) 2.1.3.. Deep autoencoder. Hinton [5] establece una estrategia de pre-entrenamiento basado en RBMs para un multilayer autoencoder (deep autoencoder ). Esta estrategia logra mejor reconstrucción de imágenes (MNIST y Olivetti face) que PCA. En visualización, deep autoencoder produce mejor visualización que PCA en imágenes MNIST. Deep autoencoder, es mejor en performance que LSA en recuperación documentos similares (Reuter Corpus Volume 2 ). El autoencoder y deep autoencoder pueden trabajar con descriptores globales de las imágenes (esto en caso no se tuviesen las imágenes, solamente descriptores) al mismo tiempo compitiendo con los descriptores originales en recuperación de imágenes [29]. Como primer paso, se obtuvo un conjunto de descriptores de imágenes. Luego, se obtuvieron caracterı́sticas mediante autoencoder y deep autoencoder al fusionar todos los descriptores de las imágenes. Después de eso, se compara la precisión promedio de las arquitecturas del autoencoder y los descriptores originales de las imágenes. Como resultado, el autoencoder y deep autoencoder tienen un desempeño en promedio similar que los descriptores. La estandarización (Batch Normalization) y función de activación ReLu en un deep autoencoder mejora la clasificación de enfermedades del hı́gado [30]. La base de datos consiste de 20 ı́ndices que definen si el hı́gado sufre de algún daño. Como primer paso, el deep autoencoder es configurado con estandarización y activación ReLu en cada unidad de las capas ocultas. Luego, en la etapa de pre-entrenamiento se determinan los pesos iniciales. En la etapa de entrenamiento en sı́ (fine tuning), se elimina la parte decoder del deep autoencoder para agregarle un capa clasificador (softmax classifier ). En los resultados se observa aceleración en la convergencia y mejora en la exactitud.. 9.

(24) 2.2.. Estudios climáticos. El término “clima” tiene una definición variada dependiendo del interés del investigador. Generalmente se asocia “clima” con temperatura [31], a pesar de que está compuesta de muchos parámetros o variables (precipitación, humedad, etc.). Una definición podrı́a ser “[...] conjunto de [...] factores quı́micos y fı́sicos no vivientes en el medio ambiente, que afectan a los ecosistemas” [11]. Sin embargo, esta definición es muy general y no se presta para nuestros propósitos. Otra definición más completa es “[...] las estadı́sticas que describen la atmósfera y océano determinados sobre un intervalo de tiempo definido (estaciones, décadas o más), calculadas para el planeta en su totalidad o posiblemente para una región seleccionada” [31]. Con esto se resalta el aspecto temporal, espacial y parámetro de los datos climáticos. El cambio climático de una región especı́fica se puede definir como las variaciones en las estadı́sticas en un lapso de 30 años. Algo importante es que estas variaciones emergen a partir de las interacciones entre diferentes componentes propios del sistema climático y diferentes factores externos, Figura 2.1. El avance de la tecnologı́a ha permitido al ser humano recolectar información climática de diversas formas. Estas se dan mediante instrumentos fijos (sensores) hasta remotos (imágenes satelitales). Actualmente, los datos climáticos disponibles se pueden clasificar en cuatro grupos: in situ, de percepción remota (remote sensing), salidas del modelo matemáticos y paleo climáticos [12]. Los mecanismos de percepción remota ofrecen información a gran resolución espacial (imágenes satelitales) pero esta forma es muy reciente, datos paleo climáticos brindan información de largos periodos de tiempo (sedimentos glaciales, cortezas de árboles, etc.) pero no son de alta resolución y los modelos matemáticos generan información temporal y espacial de alta resolución pero necesitan de datos reales para inicializar sus parámetros. Al parecer los datos in situ son una buena fuente de información, pero solo se conoce los registros a partir de mediados de 1800 [32].. 10.

(25) Figura 2.1: Componentes e interacciones en el sistema climático[31]. Se pueden abordar los estudios climáticos de diversas formas. Algunos investigadores prefieren usar métodos tradicionales basados en la estadı́stica, mientras otros aprovechan los grandes avances que ha tenido las técnicas computacionales. Casi todos los trabajos abordan un aspecto especı́fico de los datos climáticos, aunque algunos de ellos proponen técnicas para problemas generales y muy pocos estan usando técnicas de deep learning para estudiar los datos climáticos. Balzter [8] presenta, Multi-Scale Entropy (MSE), un método para identificar las escalas temporales de variabilidad y su cambio en el tiempo en series temporales climáticas. MSE se obtiene al calcular la entropı́a de las series temporales particionadas a diferentes escalas temporales. Los resultados en anomalı́as de temperatura mensual de Europa central (CRUTEM4v) muestran que las escalas temporales del clima (1960-2014) son diferentes del promedio a largo plazo (1850-1960), debido a que las escalas temporales mayores a 12 meses, tienen mayor entropı́a que el promedio a largo plazo. A partir de 1961 los patrones de temperatura mensual de aire son menos regulares a escalas temporales mayores que 11.

(26) 12 meses. Estos resultados nos sugieren que, en estas escalas de tiempo interanuales, la variabilidad se ha convertido menos predecible que en el pasado. Mudelsee [9] presenta métodos estadı́sticos que tiene en cuenta la incertidumbre de los procesos climáticos para estimar sus parámetros. Se sabe que los intervalos de confianza más estrechos garantizan un entendimiento más preciso de los datos (menor incertidumbre). Para construir intervalos de confianza, hacen uso de enfoques clásicos y adaptaciones de métodos clásicos (bootstrap). Presentan una variedad de técnicas tales como: análisis de regresión lineal y no lineal, el análisis espectral y el análisis de series temporales de valores extremos en el caso de análisis de series de tiempo climáticas univariadas, correlación, ası́ como otras variantes de la regresión para las series temporales bivariadas. Hennemuth [10] presenta una variedad de métodos estadı́sticos que se pueden utilizar en estudios de investigación. Se muestran las diferentes aplicaciones de estos métodos para documentar el rango de posibilidades de su uso. Estos métodos presentados abarcan: estadı́sticos generales, distribuciones de frecuencia, análisis de series de tiempo, corrección de sesgo, pruebas de significancia, regionalización (downscaling, interpolación), análisis de valor extremo (método de selección, estimación de parámetros, métodos empı́ricos, métodos de análisis de valores extremos), ı́ndices (medidas de evaluación del modelo, ı́ndices estadı́sticos climáticos), métodos espaciotemporales, ensemble analysis. Faghmous [12] presenta una amplia gama de aplicaciones de Spatio-temporal Data Mining (STDM) aplicados a datos del clima con su respectivos ejemplos. Por ejemplo en Spatio-temporal Query Matching se ha enfocado tanto en el análisis exploratorio como formulación y consultas a gran cantidad de datos, en Pattern Mining se han usado técnicas como empirical orthogonal function (EOF) analysis, clustering para encontrar patrones espacio temporales, en Event and Anomaly Detection se presenta diversos algoritmos para la detección de cambios de eventos y anomalı́as en los datos de los ecosistemas, en Relationship Mining presenta varios trabajos que analizan las relaciones lineales entre. 12.

(27) las variables climáticas, en Spatio-temporal Predictive Modeling se proveen métodos de predicción que tienen aspectos espacio temporales, en Network-Based Analysis los nodos del grafo(o red) son las posiciones geográficas mientras el peso de las relaciones es el grado de similitud entre las series temporales de los respectivos nodos y diferentes métodos se han propuesto para abordar como grafos. Zhang [13] con el fin de extraer la información intrı́nseca de las series de tiempo climáticas con presencia de ruido rojo, propone una fórmula analı́tica sobre la distribución de los espectros de potencia wavelet del ruido rojo. Después de comparar la diferencia de espectros de potencia wavelet de series de tiempo climáticas reales y ruido rojo, se pueden extraer caracterı́sticas intrı́nsecas de series de tiempo climáticas. Al analizar la Arctic Oscillation (AO), que es un aspecto clave de la variabilidad climática en el hemisferio norte, se descubrió un gran cambio en las propiedades fundamentales del AO (cambio de régimen o punto de disparo). Sips [14] presenta un enfoque de Visual Analytics que aborda la detección de patrones en series de tiempo medio ambientales. La propuesta consiste de tres pasos principales: un algoritmo para calcular valores estadı́sticos para todas las escalas de tiempo posibles y posiciones iniciales de intervalos, identificación visual de patrones en una visualización matricial y exploración interactiva. Se demuestra la utilidad de este enfoque en dos escenarios cientı́ficos y se explica cómo permitió a los cientı́ficos obtener una nueva visión de la dinámica de los sistemas ambientales. Las técnicas de deep learning se ha usado para la detección de eventos extremos climáticos. Debido a que las redes neuronales profundas pueden aprender representaciones de alto nivel a partir de datos etiquetados, Liu [15] desarrolla un sistema de clasificación basado en Convolutional Neural Network (CNN) y demuestra su utilidad para en la detección de eventos extremos (ciclones tropicales, rı́os atmosféricos y frentes meteorológicos).. 13.

(28) Capı́tulo 3. Marco teórico. 3.1.. Series temporales. Una serie temporal x es una secuencia de números reales con orden cronológico [22]. La diferencia con otro tipo de datos es el componente temporal. Formalmente, se puede representar por la siguiente expresión:. xi = (xi1 , xi2 , . . . , xim ), xij ∈ R, 1 ≤ j ≤ m. (3.1). Las series temporales pueden ser univariados o multivariados. Los primeros son representados por un vector, Ecuación 3.1, mientras que los segundos consisten de múltiples series que abarcan las mismas dimensiones temporales y son representadas por una matriz.. x = {x1 , x2 , . . . , xn }, xi ∈ Rm. (3.2). Existen diversas tareas en series temporales que permiten analizar y sacar provecho de sus caracterı́sticas [22] [33]. Entre ellas están las consultas por similitud, en la que se deben considerar si son de coincidencia completa o de subsecuencia [34]. En el primer caso todas deben tener la misma longitud. En el segundo caso se crea una ventana deslizante de. 14.

(29) la misma longitud de la serie que hace de consulta convirtiéndose al final en un problema similar al primero. Otra tarea común es la clasificación en la que se entrena un modelo y luego se usa este modelo para determinar a qué clase pertenece una nueva serie temporal. La tarea más importante sin duda es el pronóstico de las series temporales, debido a que estas contienen información temporal implı́cita (datos históricos).. 3.2.. Reducción de la dimensionalidad de series temporales. La reducción de la dimensionalidad se refiere a la transformación de un objeto localizado en un espacio de alta dimensión hacia otro espacio de menor dimensión preservando las caracterı́sticas locales y globales importantes de los datos originales [20] [33] [22]. Supóngase que una serie temporal x de longitud m esta representado por un vector x = f (x) de dimensión p tal que x capture lo más relevante de x. Si la representación reducida captura todas caracterı́sticas, entonces se debe cumplir lo siguiente. [35]:. “Dado que dos series temporales S y T son similares en el espacio original, entonces sus representaciones reducidas en el espacio de transformación también son similares”.. doriginal (T, S) ≈ dreducido (T , S) = dreducido (f (T ), f (S)). (3.3). Donde doriginal es la distancia en el espacio original y dreducido es la distancia en el espacio reducido.. 15.

(30) 3.2.1.. Discrete cosine transform (DCT). DCT transforma cualquier señal hacia un dominio de frecuencias usando solamente funciones coseno. Su uso es principalmente en la compresión de imágenes JPEG [36] y de video MPEG [37]. Para una serie temporal x = {x1 , . . . , xm } de longitud m, los coeficientes DCT se obtienen por:. xj = K(j). m X. xi cos. i=1. π 1 (i − )(j − 1) , j = 1, . . . , m m 2. (3.4). donde xj es el j-ésimo elemento del vector de caracterı́sticas y el factor K(j) está definido por:.     √1 , m K(j) = q    2, m. para j = 1 para 2 ≤ j ≤ m. Los primeros p coeficientes DCT forman el vector de caracterı́sticas:. x = {x1 , . . . , xp }, para p ≤ m. DCT tiene ciertas caracterı́sticas [38]: Sus coeficientes son números reales, puede manejar señales con tendencias y mejora la concentración de energı́a si los valores consecutivos están altamente correlacionados.. 16.

(31) 3.2.2.. Singular value decomposition (SVD). Las series temporales de igual longitud puede ser organizados en una matriz X de dimensión n × m donde n es el número de series temporales y m es la longitud de todas series temporales. Por teorı́a en álgebra lineal, toda matriz X se puede descomponer en la multiplicación de tres matrices [39]:. Xn×m = Un×n × An×m × Vm×m. (3.5). donde U es una matriz ortogonal por columnas de orden n × n, A es una matriz con elementos en la diagonal de orden n × m y V es una matriz ortogonal por filas de orden m × m. La reducción de la dimensionalidad se obtiene especificando el valor de p (dimensión deseada del vector de caracterı́sticas 1 ≤ p ≤ m).. X n×p = Un×n × An×p = [λ1 u1 , . . . , λp up ]. (3.6). donde ui es el vector columna de las matrices U y λi son elementos diagonales de la matriz A ordenados en orden decreciente (autovalores de la matriz X).. 3.2.3.. Discrete wavelet transform (DWT). Representa los datos en términos de funciones base, wavelets y los procesa a diferentes escalas o resoluciones. La forma más común de wavelets es Haar Wavelet [40]: (1) es una buena aproximación 17.

(32) con un subconjunto de coeficientes, (2) se puede calcular rápida y fácilmente, requiriendo tiempo lineal en la longitud de la secuencia y codificación simple, y (3) preserva la distancia euclidiana. La complejidad de DWT usando la transformación de Haar es O(n). La desventaja es que la longitud de la serie temporal n debe ser potencia de 2.. 3.2.4.. Piecewise aggregate approximation (PAA). La serie temporal x = {x1 , ..., xm } de longitud m se divide en p ventanas de la misma longitud k. Se calcula el promedio de los datos que caen dentro de cada ventana. Su representación x esta dado por [41]:. xi =. donde k =. j k m p. 1 k. k∗i X. xj , para 1 ≤ i ≤ p. (3.7). j=k∗(i−1)+1. , p es la dimensión deseada del vector caracterı́stica x y xi es el i-ésimo. elemento del vector caracterı́stica x. Sı́ p = m, entonces la representación es idéntica a la representación original. Si p = 1 la representación es simplemente la media de los valores de la serie original.. 3.2.5.. Chebyshev polynomials (CP). El polinomio de chebyshev Pm (t) es el polinomio de grado m, definido como:. Pm (t) = cos(m ∗ arc cos(t)), t ∈ [−1, 1]. (3.8). 18.

(33) También como Pm (t) = cos(mθ), t = cos θ, θ ∈ [0, π]. (3.9). Dado la identidad trigonométrica cos(mθ) + cos((m − 2)θ) = 2cosθcos((m − 1)θ). Los polinomios de chebyshev pueden ser definidos con la siguiente relación de recurrencia:. Pm (t) = 2tPm−1 (t)–Pm−2 (t), m ≥ 2. (3.10). Los polinomios de chebyshev P0 (t), ..., Pm (t) son ortogonales, por tanto su producto interior es igual a 0.. Z. 1. < Pi , Pj >= −1.    0 si i 6= j    Pi (t)Pj (t) √ dt = π/2 si i = j 6= 0  1 − t2     π si i = j = 0. (3.11). Se define la función de peso chebyshev, con el propósito de que el resultado de la integración sea exacto [42].. w(t) = √. 1 1 − t2. (3.12). Debido a su ortogonalidad, los polinomios de chebyshev pueden utilizarse como base para aproximar cualquier función. Es decir, la función f (t), puede ser aproximada por:. f (t) ≈ c0 P0 + ... + cm Pm. (3.13). La aproximación es exacta si f (t) es un polinomio y su grado es menor o igual a m. 19.

(34) Sea la serie temporal x = (x1 , ..., xi , ..., xN ), se definen los intervalos.    1  −1, − 1 , if i = 1  N −1   h 2∗(i−1)−1 Ii = − 1, 2∗i−1 − 1 , if 2 ≤ i ≤ N − 1 N −1 N −1        N −2 , 1 , if i = N N −1. Se calcula los raices de PN (t), tj = cos. . (j−0.5)∗π N. . (3.14). , 1 ≤ j ≤ N.. Se define la función de paso:. g(t) = vi , if t ∈ Ii para 1 ≤ i ≤ N. (3.15). El lema de lı́mite inferior es satisfecho con la inclusión de la función de peso chebyshev y la longitud de cada subintervalo:. g(t) f (t) = p , if t ∈ Ii para 1 ≤ i ≤ N w(t)|Ii |. (3.16). Donde g(t) es definido por la Ecuación 3.12 y |Ii | es la longitud del subintervalo Ii El vector de caracterı́sticas está conformado por los primeros coeficientes de chebyshev, “p” [43].. N N 1 X 1 X f (tj )P0 (tj ) = f (tj ) c0 = N j=1 N j=1. (3.17). N 2 X ci = f (tj )Pi (tj ), para 1 ≤ i ≤ p − 1 N j=1. (3.18). 20.

(35) Las fórmulas anteriores para obtener c0 y ci difieren en un factor de 2, como consecuencia directa del segundo y tercer caso mostrados anteriormente en la Ecuación 3.11. La representación reducida está dado por:. x = [c0 , . . . , cp−1 ]. Y su reconstrucción se obtiene de la siguiente forma:. p−1 q X xj ≈ w(tj )|Ii | ci Pi (tj ), para 1 ≤ j ≤ N. (3.19). i=0. 3.2.6.. Indexable piecewise linear approximation (IPLA). La técnica Piecewise Linear Approximation (PLA) [44], [45] consiste en aproximar la serie temporal con segmentos generalmente de diferente longitud. Para esto existen tres estrategias bien definidos [46], sin embargo no se asegura que cumpla la propiedad Lower Bounding (LB) [34]. Chen [47] propone el uso de una aproximación de series temporales con segmentos de igual longitud (IPLA). Es decir, la serie temporal x = {x1 , ..., xn }, es dividido en m n (solo se utilizan l ∗ m elementos de la serie segmentos disjuntos de longitud l = m temporal). Luego, cada segmento i es aproximado por un recta (mejor ajuste de regresión lineal) y se toman sus coeficientes ai y bi (1 ≤ i ≤ m) como su representación PLA:. x = {a1 , b1 ; a2 , b2 ; . . . ; am , bm }. (3.20). La complejidad computacional de la representación PLA es O(n). Por ejemplo, supónga21.

(36) se que la secuencia x = {x1 , ..., xn } de longitud n es representado por un recta, x(t)0 = a ∗ t + b (t ∈ [1, n]), donde a y b son coeficientes de la recta que minimiza el error de reconstrucción (regresión lineal), RecErr(x).. v v u n u n uX uX RecErr(x) = t (xt –x0t )2 = t (xt − (a ∗ t + b))2 t=1. (3.21). t=1. Para obtener los coeficientes a y b, se deben cumplir las siguientes condiciones.. ∂RecErr(x) ∂RecErr(x) =0y =0 ∂a ∂b. (3.22). Los coeficientes se obtienen de:. P 12 nt=1 (t − n+1 )xt 2 a= n(n + 1)(n − 1). b=. 6. Pn. − 2n+1 )xt 3 n(n − 1). t=1 (t. (3.23). (3.24). donde xt es el valor de la serie temporal x en el tiempo t.. 3.2.7.. Principal component analysis (PCA). Las series temporales se pueden acomodar en una matriz X de dimensión n × m donde n es el número de series temporales y m es la longitud de todas series temporales. Luego, se obtiene la matriz covarianzas de X. Finalmente, se determina m vectores unitarios que son perpendiculares entre sı́ (llamados componentes principales) [48] [49]. De manera que. 22.

(37) los datos de entrada son una combinación lineal de los componentes principales. Los componentes principales se ordenan en orden decreciente y sirven esencialmente como un nuevo conjunto de ejes para los datos, proporcionando información importante sobre la varianza. Es decir, los ejes ordenados son tales que el primer eje muestra la mayor varianza entre los datos, el segundo eje muestra la siguiente varianza más alta, y ası́ sucesivamente. Debido a que los componentes se ordenan en orden decreciente, el tamaño de la información se puede reducir eliminando los componentes más débiles, es decir, aquellos con baja varianza. Usando los componentes principales más fuertes, deberı́a ser posible reconstruir una buena aproximación de los datos originales.. 3.3.. Evaluación de técnicas de reducción de dimensionalidad. Hay una variedad de estrategias para evaluar la reducción de la dimensionalidad de series temporales. Tightness of lower bounds [50] [51] [52] y Pruning power [53] [50] [43] requieren que su medida de similitud cumpla el siguiente criterio Dreducido (S, T ) ≤ Doriginal (S, T ), son independientes de sesgos de implementación y solamente dependen de los datos. Hierarchical clustering [54] [55] provee un visualización jerárquica de las series temporales. El problema es que no siempre se tienen el espacio visual para mostrar todas las series temporales. Además, el costo computacional es demasiado elevado para gran cantidad de datos. El error de clasificación de 1-NN classifier y support vector machine (SVM) [38] son usadas para comparar los métodos de reducción de dimensionalidad. Se calcula el error para diferentes longitudes del vector de caracterı́sticas. La función objetivo de k-mean clustering [56] [57] tanto en datos originales como en vectores de caracterı́sti-. 23.

(38) cas. Debido a que k-means optimiza (minimiza) en cada iteración la función objetivo, se logra cluster más compactos. Esta estrategia corresponde a criterios internos de validación de clustering. Las medidas de calidad de k-mean clustering [58] [59] de los vectores de caracterı́sticas y los datos originales. Requieren que los datos estén previamente clasificados para poder contrastar con los clusters encontrados. Una vez que los cluster son determinados por k-mean clustering, la validación se da a través de criterios externos [60] [61] [48] [62].. 3.3.1.. Criterios externos. A partir de una tabla de contingencia. Una tabla de contingencia se define una representación tabular de los grupos originales y los clusters encontrados, Tabla 3.1. Cada celda de la representación tabular contiene el número de objetos de un determinado grupo y cluster.. Grupos. g1 g2 .. . gK. c1 n11 n21 .. .. clusters c2 . . . n12 . . . n22 . . . .. .. . .. cK n1K n2K .. .. n1. n2. .. .. nK1 n.1. nK2 n.2. nKK n.K. nK. n. ... .... Tabla 3.1: Tabla de contingencia. Purity A cada grupo se asigna el cluster con más elementos comunes, se obtiene mediante el número de objetos correctamente asignados divididos por el número total de objetos N , [63].. 24.

(39) K 1 X máx |gi ∩ cj | purity(G, C) = N i=1 1≤j≤K. (3.25). donde G = {g1 , g2 , ..., gK } es el conjunto de grupos y C = {c1 , c2 , ..., cK } es el conjunto de clusters. Cluster Similarity Measure (CSM) Sea G = {g1 , g2 , ..., gK } y C = {c1 , c2 , ..., cK } conjuntos de K clusters, Cluster Similarity Measure (CSM) se define como [60] [58]:. K 1 X máx Sim(gi , cj ) CSM (G, C) = K i=1 1≤j≤K. donde Sim(gi , cj ) =. T 2|gi cj | |gi |+|cj |. (3.26). y | · | denota la cantidad de elementos.. Normalized Mutual Information (NMI) Sea G = {g1 , g2 , ..., gK } y C = {c1 , c2 , ..., cK } conjuntos de K. Con el fin de hacer un balance entre la calidad de la agrupación en función del número de clusters, se ha propuesto el uso de Normalized Mutual Information (NMI) [64] [58].. I(G, C) N M I(G, C) = p H(G)H(C). (3.27). P P P (gi ∩cj ) donde I(G, C) = i j P (gi ∩ cj ) log P (gi )P (cj ) es información mutua, H(G) = P P − i P (gi ) log P (gi ) es la entropı́a de G, H(C) = − j P (cj ) log P (cj ) es la entropı́a de C, P (gi ) es la probabilidad de que objeto este en el grupo gi , P (cj ) es la probabilidad de que el objeto este en el cluster cj y P (gi ∩ cj ) son las probabilidades de que un documento esté en la intersección de gi y cj . Por otro lado, [63] propone obtener tal medida de calidad de la siguiente forma.. N M I(G, C) =. I(G, C) [H(G) + H(C)]/2. (3.28) 25.

(40) Entropy Dado un cluster cj de tamaño |cj |, la entropı́a se define como [65]:. Entropy =. K X |cj | j=1. T |gi cj | i=1 |cj |. PK. donde E(cj ) = − log1K. log. T |gi cj | |cj |. N. E(cj ). (3.29). y N es igual al número total de series. temporales. La solución de un algoritmo de clustering será casi perfecta cuando cada cluster es asignado a su grupo correspondiente (la entropı́a se acerca a 0).. A partir de una matriz de confusión. Se denomina matriz de confusión a la representación tabular en la Tabla 3.2, que se puede obtener a partir de una tabla de contingencia, Tabla 3.1, mediante las siguientes operaciones:. TP = a =. P. FN = b =. P. ij. i. nij 2 ni. 2. . . es el número de pares en el mismo grupo y el mismo cluster. −. P. ij. nij 2. . es el número de pares en el mismo grupo pero no en. nij 2. es el número de pares en el mismo cluster pero no. el mismo cluster FP = c =. P. j. n.j 2. . −. P. ij. . en el mismo grupo TN = d =. n 2. . − a − b − c es el número de pares que no están en el mismo grupo ni. tampoco en el mismo cluster. donde nij representa el número de elementos de la intersección del grupo gi y cluster cj , ni. es el número de elementos del grupo gi y n.j es el número de elementos en el cluster cj 26.

(41) Grupos. Si No. clusters Si No TP = a FN = b FP = c TN = d. Tabla 3.2: Matriz de confusión Rand Index (RI) Una alternativa de evaluación de clustering es verla como una serie de decisiones, una para cada uno de los N2 = N (N − 1)/2 pares de objetos de toda la colección. Rand Index (RI) se puede expresar de la siguiente forma [63].. RI =. TP + TN TP + FP + FN + TN. Adjusted Rand Index(ARI) El problema con Rand Index es que el valor esperado de dos particiones aleatorias no toma un valor constante (cero). El valor ajustado del ı́ndice Rand está dado por [66]:. ARI =. (b+a)(c+a) a+b+c+d [(b+a)+(c+a)] − (b+a)(c+a) 2 a+b+c+d. a−. (3.30). donde a = T P , b = F N , c = F P y d = T N . Jaccard score Está dado por [58]:. Jaccard =. a a+b+c. (3.31). donde a = T P , b = F N y c = F P Folkes and Mallow index(FM). 27.

(42) Está dado por [58]: r FM =. a a a+ba+c. (3.32). donde a = T P , b = F N y c = F P F-measure Está dado por [63]: Fβ = donde P =. 3.4.. TP , T P +F P. R=. TP T P +F N. (β 2 + 1)P R β 2P + R. yβ>1. Proyección multidimensional de series temporales. Proyección multidimensional es una aplicación de reducción de dimensionalidad en visualización. La particularidad es que el espacio de reducción objetivo es 1D, 2D o 3D con el objetivo de facilitar el análisis visual [67] [68]. Formalmente, sea X = {x1 , . . . , xn } un espacio de dimensión m y Y = {y1 , . . . , yn } es un espacio de dimensión d, una técnica de proyección multidimensional puede ser representado por una función: f : X → Y tal que |δ(xi , xj ) − d(f (xi ), f (xj ))| sea lo más próximo a 0 (cero) ∀xi , xj ∈ X [69]. Para evaluar la calidad de una técnica de proyección, se calcula el coeficiente de stress normalizado [69].. sP stress =. − δ(xi , xj ))2 2 i<j d(f (xi ), f (xj )). i<j (d(f (xi ), f (xj )). P. En la literatura existen varios métodos de proyección muldidimensional no lineal: LSP [69], PLMP [68], LAMP [70], PLP [71], LLE [72] y FASTMAP [73]. 28.

(43) 3.5.. Autoencoder. El autoencoder es un tipo de red neuronal artificial cuyo aprendizaje es “no supervisado”. La peculiaridad es que tiene un comportamiento similar al análisis de componentes principales Principal Component Analysis (PCA) y Singular Value Decomposition (SVD) en la reducción de la dimensionalidad [1]. La arquitectura de esta red neuronal consiste de tres capas: la capa de entrada x, la capa oculta h y la capa de salida x b. Estas capas están conectadas a través de las matrices W (1) y W (2) , que representan los pesos. La capa oculta y la capa de reconstrucción tienen vectores de sesgo (bias) b(1) y b(2) , respectivamente.. X hj = σ( Wji1 xi + b1j ) i. x bi =. X. Wij2 hj + b2i. j. donde σ(.) es la función de activación. Sea θ = (W 1 , W 2 , b1 , b2 ), la función de costo a ser minimizada se expresa como:. N m 1 X X (n) (n) J(θ) = (xi − x bi )2 2N n i. (3.33). donde N es el número de ejemplos de entrenamiento. Para evitar sobreajuste (overfitting) se agrega regularización a la función costo.. N m 1 X X (n) α (n) J(θ) = (xi − x bi )2 + kW k22 2N n i 2. (3.34). 29.

(44) Figura 3.1: Ilustración de una arquitectura autoencoder donde αkW k22 es una función de regularización. Entonces los parámetros son obtenidos por backpropagation al resolver el problema de minimización.. θ = arg mı́n J(θ) θ. (3.35). Hay varias variaciones del autoencoder tales como denoising autoencoder [7], variational autoencoder [74] y sparse autoencoder [75],. 3.5.1.. Denoising autoencoder. Denoising autoencoder es similar al autoencoder tradicional [25]. La diferencia radica en que la señal de entrada es una modificación de señal original mediante una función que añade ruido x = qD (y) y se fuerza la salida para que sea igual a la señal original. Definitivamente se pueden agregar varios tipos de ruido dependiendo del problema. 30.

(45) Figura 3.2: Representación gráfica de denoising autoencoder La función de costo a ser minimizada se expresa de la misma forma que el autoencoder tradicional.. J(θ) =. N m 1 X X (n) α (n) (yi − x bi )2 + kW k22 2N n i 2. (3.36). 31.

(46) Capı́tulo 4. Reducción de la dimensionalidad mediante multi-layer autoencoder La propuesta de este trabajo, Figura 4.1, empieza con los datos climáticos organizados en forma de series temporales con resolución temporal mensual (por ejemplo datos mensuales recolectados mediante instrumentos in-situ). Enseguida, pasa por el proceso de llenado de valores perdidos, luego por estandarización y termina con reducción de la dimensionalidad con autoencoder. Debido a muchos factores relacionados con el funcionamiento y su localización geográfica de los instrumentos de medición, los datos climáticos están incompletos (valores faltantes), presentan ruidos y son inconsistentes (datos contradictorios). Los dos primeros se pueden mitigar con el llenado de valores perdidos y estandarización, en cambio las inconsistencias necesitan un tratamiento especial.. 4.1.. Llenado de valores perdidos. El llenado de valores perdidos tiene en cuenta el patrón anual (por ejemplo: todos los años la temperatura tiene el mismo comportamiento). Por lo tanto, el valor particular de un determinado mes es obtenido a partir del promedio de otros años de ese mes particular, Figura 4.2. 32.

(47) Figura 4.1: Esquema de la propuesta.. Figura 4.2: Rellenado de valores faltantes.. 33.

(48) Supongamos que la serie temporal consiste de mediciones mensuales de temperatura promedio. El procedimiento para completar los datos faltantes serı́a el siguiente:. La serie temporal es dividida cada 12 meses obteniéndose subsecuencias. Se forma una matriz en la que las filas son años (subsecuencias obtenidas del anterior paso) y las columnas los meses. Se obtiene el promedio de cada columna solamente con los valores que se tiene (sin considerar los valores perdidos). El promedio reemplaza cada valor faltante de la columna. La matriz se acomoda nuevamente como serie temporal.. 4.2.. Transformación de datos: Estandarización. La representación de series temporales posiblemente sea el componente clave para el éxito de cualquier análisis en series temporales. Una estrategia es considerar la serie temporal ya de por sı́ como una representación. Su utilidad ha sido probado ya anteriormente por otros investigadores [76] en clustering y clasificación. Las series temporales climáticas se acomodan en una matriz S = {s1 , s2 , . . . , sM }. Luego, se procede a estandarizar los datos con µ = 0 y σ = 1.. xtransf ormado =. s − µ(s) σ(s). (4.1). donde s es cada serie temporal del conjunto S = {s1 , s2 , ..., sM }, µ(s) y σ(s) son la media y desviación estándar de los valores de la serie temporal respectivamente.. 34.

(49) Tabla 4.1: Configuración de Parámetros optimizer learning rate loss function epochs batch size. parámetros de multi-layer autoencoder Valor = rmsprop = 0.001 = mean squared error = 100 = 20. Figura 4.3: Arquitectura del multilayer autoencoder. 4.3.. Reducción de la dimensionalidad. La configuración de los parámetros de la red neuronal multi-layer autoencoder están especificados en la Tabla 4.1. Además, la función de activación variará de acuerdo a la capa. La capa de entrada, la capa oculta que se ubica en el centro de la red neuronal y la capa de salida tendrán la función de activación lineal (linear ). Mientras que las demás capas tendrán la función de activación no lineal (tanh). La arquitectura de nuestra red estará dado por la Figura 4.3. La primera y tercera capa oculta tienen el doble de la dimensión de la serie temporal: D - 2*D - 2 - 2*D - D.. 35.

(50) Capı́tulo 5. Evaluación de la capacidad del multi-layer autoencoder La evaluación se ha llevado a cabo por su capacidad en la reducción de la dimensionalidad lineal y no lineal.. 5.1.. 5.1.1.. Reducción de la dimensionalidad lineal. Capacidad de reducción de la dimensionalidad a través de calidad de clustering. Base de datos: Se ha usado la base de datos synthetic control que es parte de UCR Time Series Classification Archive [77]1 . La base de datos tiene dimensión 60 y contiene 6 tipos de series temporales (Normal, Cyclic, Increasing trend, Decreasing trend, Upward shift y Downward shift), Figura 5.1. Para evaluar la capacidad del multilayer autoencoder (ML AE ), se analiza la calidad de clustering. Se compara con otras técnicas de reducción de dimensionalidad lineal y con el valor ideal (obtenido antes de aplicar el método de reducción). Debido a que existen 1. UCR Time Series Classification Archive contiene un total 85 base de datos de series temporales. 36.

(51) Figura 5.1: Base de datos synthetic control una diversidad de medidas de calidad de clustering, solamente se muestra los resultados para un subconjunto de tales medidas: cluster purity, entropy, jaccard score y rand index. Con respecto a cluster purity, Figura 5.2, los métodos de reducción de dimensionalidad tienen casi el mismo comportamiento. Pero algunos pueden representar las series temporales con pocas dimensiones de 4 a 10 (AE, ML AE, PCA, SVD). Los demás tienen un comportamiento oscilatorio al reducir a diferentes dimensiones. El multilayer autoencoder (ML AE ) parece ser más estable que el autoencoder tradicional (AE ). En el caso de la entropy, Figura 5.3, se observa que todas las técnicas de reducción tienen un comportamiento oscilatorio con pocas dimensiones. Aun ası́, la mayorı́a puede representar con pocas dimensiones de 4 a 6 excepto IPLA y DWT. Todas se aproximan al ideal excepto IPLA que empeora al aumentar las dimensiones. El autoencoder al parecer es inestable entre las dimensiones 10 y 30, en cambio multilayer autoencoder mantiene su estabilidad en todas las dimensiones excepto al inicio y al final. En jaccard score, Figura 5.4, se observa que CP y DCT sobrepasan al valor ideal en 37.

(52) Figura 5.2: Cluster purity. Figura 5.3: Entropy. 38.

(53) Figura 5.4: Jaccard score algunas dimensiones iniciales (entre 4 y 7 aproximadamente). La mayorı́a de las técnicas mejoran su performance a medida que aumentan las dimensiones excepto IPLA. Casi todas las técnicas de reducción con pocas dimensiones pueden representar adecuadamente las series temporales. Finalmente el coeficiente rand index, Figura 5.5, refleja claramente las diferencias que previamente se ha estado afirmando. Todas mejoran a medida que va aumentando las dimensiones menos IPLA. A pesar de eso, IPLA con pocas dimensiones (hasta 5) puede representar las series temporales lo cual es bueno para cualquier análisis posterior. En resumen, hay variabilidad en las medidas de calidad de clustering de los métodos de reducción de dimensionalidad. No todos los métodos de reducción se desempeñan de misma forma (por ejemplo IPLA empeora a mayor dimensión). A pesar de eso, casi todas las técnicas de reducción pueden representar con pocas dimensiones la serie original. Además, multilayer autoencoder es competitivo con otras técnicas de reducción de la dimensionalidad y es bastante cercana al valor ideal.. 39.

(54) Figura 5.5: Rand index. 5.2.. 5.2.1.. Reducción de la dimensionalidad no lineal. Comparación de la proyección bidimensional de la base de datos CBF. Base de datos: Se toma la base de datos CBF, Figura 5.6, que forma parte del conjunto de base de datos UCR Time Series Classification Archive. CBF tiene 3 tipos de series temporales (Cylinder, Bell y Funnel ) con longitud 128 cada una. La proyección LLE, Figura 5.7, muestra claramente los tres grupos. Al parecer dos grupos están superpuestas en una misma recta (color rojo oscuro y amarillo). Mientras el otro grupo tiene un comportamiento diferente (color rosado). En cambio, la proyección FASTMAP, Figura 5.8 muestra los tres grupos dispersos sobre dos lı́neas. Al parecer no logra diferenciar o discriminar las series temporales ade-. 40.

(55) Figura 5.6: CBF. Figura 5.7: LLE: Dos de los tres grupos se sobreponen.. 41.

(56) Figura 5.8: FASTMAP: Los tres grupos están dispersos sobre dos rectas. cuadamente debido a que no ha podido capturar las caracterı́sticas intrı́nsecas de estos grupos. En el caso del autoencoder, Figura 5.9, a pesar de que los grupos están dispersas en el espacio de visualización, todavı́a algunos de ellos se sobreponen y por tanto no tienen una frontera definida los grupos. Al parecer el autoencoder tradicional no logra capturar las caracterı́sticas necesarias en sus respectivas dos dimensiones para descriminar completamente los grupos. Pero en multilayer autoencoder, Figura 5.10, se observa que los grupos están bien separadas con sus respectivas fronteras. Por tanto, este método provee mejor visualización que otras técnicas no lineales (LLE y FASTMAP) e inclusive AE2 . 2. No varia mucho los resultados si usa una función activación lineal o no lineal en un autoencoder tradicional. 42.

(57) Figura 5.9: Autoencoder : Los tres estan superpuestas sin ninguna frontera definida.. Figura 5.10: Multi-layer autoencoder : Los tres grupos estan bien definidos con frontera.. 43.

(58) Figura 5.11: El AE y ML AE tienen un stress promedio mejor que otras técnicas de proyección, pero presentan mayor variabilidad.. 5.2.2.. Comparación con técnicas de reducción de dimensionalidad no lineales LLE y FASTMAP. Base de datos: Se ha usado el conjunto de base de datos de UCR Time Series Classification Archive [77] que contiene 85 bases de datos de diversos problemas de clasificación de series temporales. La apreciación visual que se ha hecho sobre las proyecciones de la base de datos CBF es subjetiva. Asi que una forma de evaluación objetiva y cuantitativa es a través del stress. Se procede a determinar el stress de todas las bases de datos del UCR Time Series Classification Archive (85 bases de datos) para mostrar el diagrama de cajas Box Plot, Figura 5.11. Se observa que las técnicas basadas en autoencoder tiene mejor valor de stress (≈ 0) en promedio que los métodos no lineales. A pesar de que nuestra propuesta provee mayor variabilidad en los resultados del stress, el stress promedio continua siendo mejor que el autoencoder tradicional. 44.

(59) Figura 5.12: Al aumentar el número de capas el stress promedio aumenta y su variabilidad disminuye.. 5.2.3.. Análisis de la influencia del número de capas en ML AE. Base de datos: Bases de datos de UCR Time Series Classification Archive [77]. Se agregó diferente número de capas alrededor de la capa central del autoencoder tradicional: 2, 4, 6 y 8, Figura 5.12, para determinar la influencia de número de capas en el stress. El número de unidades está dado por:. ML AE: D - 2*D - 2 - 2*D - D (3 capas ocultas) ML AE3: D - 2*D - D - 2 - D - 2*D - D (5 capas ocultas) ML AE4: D - 2*D - D - D/2 - 2 - D/2 - D - 2*D - D (7 capas ocultas) ML AE5: D - 2*D - D - D/2 - D/4 - 2 - D/4 - D/2 - D - 2*D - D (9 capas ocultas). Se observa que al aumentar el número de capas aumenta el stress y disminuye su variabilidad. Esto se debe a que la red neuronal al poseer muchas capas se vuelve compleja y los pesos son difı́cil de actualizar eficientemente con el algoritmo de backpropagation. 45.

(60) Figura 5.13: El multilayer autoencoder (ML AE) provee mayor estabilidad que usando estrategias de pre-entrenamiento.. 5.2.4.. Análisis de la influencia de estrategias de pre-entrenamiento en ML AE. Base de datos: UCR Time Series Classification Archive [77]. Se uso diferentes estrategias de pre-entrenamiento en el multilayer autoencoder(ML AE), Figura 5.13, para determinar su influencia en el stress.. ML AE: Simplemente un multilayer autoencoder. SAE + ML AE: Un multilayer autoencoder inicializados los pesos por SAE (Stacked autoencoder ) SDAE + ML AE: Un multilayer autoencoder inicializados los pesos con SDAE (Stacked denoising autoencoder ).. Se observa que el stress promedio de los tres casos es casi similar. Sin embargo, la diferencia está en que ML AE provee menor variabilidad en todas las bases de datos. 46.

(61) Capı́tulo 6. Caso de estudio: Temperatura promedio del Perú. 6.1.. Base de datos: NOAA. Se extrajeron datos climáticos del Perú desde la base de datos NOAA [78]. En total la información extraı́da consiste de 32 estaciones de observación climática (observaciones in-situ). Esta información pasó por etapas de pre-procesamiento debido a que no estaba completa y presentaban mucha variabilidad. El resultado después del llenado de datos faltantes se observa en la Figura 6.1. Luego, se usa estandarización para disminuir la variabilidad. Cabe resaltar que los datos son solamente temperatura promedio mensual de 32 diferentes lugares del paı́s. Luego, se procede con la reducción de la dimensionalidad con nuestro propuesta. La reducción se realiza hacia un espacio 2D con fines de visualización, Figura 6.2. Nuestra propuesta provee una visualización que logra discriminar en dos grandes grupos, aunque lo ideal serı́a que muestre tres grupos separados. El grupo de la izquierda (puntos de color morado) que representa a la costa, está totalmente separada del grupo de la derecha que son la sierra (puntos de color verde) y selva (puntos de color amarillo) del Perú. Por alguna razón la sierra y la selva son agrupados como similares. Mayor información deberı́a obtenerse a través de interacción y usando otras técnicas de visualización.. 47.

(62) Figura 6.1: Temperatura promedio de 32 estaciones localizadas en Perú (NOAA).. 6.2.. Base de datos: MetOffice. Se extrajeron temperatura promedio (TAVG) del Perú de MetOffice [79]. En total información de 41 estaciones de diferentes lugares del Perú. Similarmente, estos datos pasaron por una etapa de pre-procesamiento para completar información y reducir la variabilidad. El resultado del proceso de llenado de datos faltantes se observa en la Figura 6.3. Se observa que una de las series temporales tiene valores fuera de lo común (la serie temporal en color rojo). Luego, se realiza la estandarización para disminuir su variabilidad. Se procede a realizar la reducción de la dimensionalidad con nuestra propuesta del multi-layer autoencoder, Figura 6.4. Se pueden obtener diversas hipótesis: debido a que Tingo Maria está separado del resto, posiblemente, sea la serie temporal con el pico sobresaliente (outlier ) en la Figura 6.3, los datos de temperatura promedio de la sierra y. 48.

(63) Figura 6.2: Proyección multidimensional de series temporales de temperatura promedio del Perú obtenidas desde la NOAA con multi-layer autoenoder selva están relacionados por alguna razón, la temperatura promedio del clima de la costa no tiene relación con el resto del paı́s y además se observa que son organizados de arriba hacia abajo en el siguiente orden: costa, sierra y selva.. 49.

(64) Figura 6.3: Temperatura promedio de 41 estaciones localizadas en Perú (MetOffice [79]).. Figura 6.4: Proyección de temperatura promedio del Perú mediante multi-layer autoencoder. 50.

(65) Capı́tulo 7. Conclusiones. 7.1.. Conclusiones. Se ha llegado a las siguientes conclusiones al comparar con técnicas de reducción lineales y no lineales:. La reducción de la dimensionalidad mediante ML AE es competitiva con técnicas tradicionales de reducción de dimensionalidad en series temporales, debido a que provee mayor estabilidad (siempre está cerca del óptimo) en calidad de clustering en la base de datos synthetic control. En la visualización de la base de datos CBF, ML AE provee mejores resultados en stress que otras técnicas de reducción de dimensionalidad no lineales (LLE y FASTMAP ) e inclusive AE con función de activación no lineal.. Después de analizar diferentes estrategias de pre-entrenamiento y agregar diferente número de capas al ML AE, se concluye:. Al agregar mayor número de capas al AE, se observa que el stress promedio aumenta y su variabilidad disminuye. Por tanto, ML AE no necesita capas adicionales.. 51.

(66) A pesar de que el promedio del stress es similar al agregar estrategias de preentrenamiento, se observa que ML AE provee menor variabilidad en todas las bases de datos. Por tanto, no es necesario agregar estrategias de pre-entrenamiento.. 7.2.. Recomendaciones. La desventaja del ML AE es la lentitud de procesamiento. Aunque este es un problema natural de las redes neuronales, se puede acelerar con procesamiento paralelo (keras, theano y GPU).. 7.3.. Trabajos futuros. Se puede agregar estrategias pre-entrenamiento cuando el ML AE tiene mayor número de capas. Por ejemplo, de acuerdo a nuestros experimentos, cuando ML AE tiene 9 capas ocultas (ML AE5) brinda menor variabilidad, posiblemente se pueda reducir el stress promedio manteniendo esa variabilidad con estrategias de pre-entrenamiento. En este trabajo se enfocó principalmente en la reducción del aspecto temporal de los datos climáticos. Sin embargo, ML AE puede extender al aspecto espacial de los datos climáticos, ya que el autoencoder fue estudiado principalmente en reducción de dimensionalidad de imágenes. Por ejemplo, al reducir cada imagen a un valor se forma ası́ una serie temporal para cada parámetro climático.. 52.