Análisis discriminante de datos utilizando técnicas de reducción de dimensionalidad

92  10  Download (0)

Full text

(1)Análisis discriminante de datos utilizando técnicas de reducción de dimensionalidad Felipe Olarte Zapata. Universidad Tecnolgica de Pereira Facultad Ingenierı́as, Departamento de Ingenierı́a Eléctrica Pereira, Colombia 2018.

(2)

(3) Análisis discriminante de datos utilizando técnicas de reducción de dimensionalidad Felipe Olarte Zapata. Trabajo de grado presentado como requisito parcial para optar al tı́tulo de: Ingeniero Eléctricista. Directores: (Ph.D.) Andrés Marino Álvarez Meza (Ph.D.) David Augusto Cárdenas Peña. Lı́nea de Investigación: Procesamiento de señales Grupo de Investigación: Grupo de grupo de Investigación de Automática. Universidad Tecnolgica de Pereira Facultad Ingenierı́as, Departamento de Ingenierı́a Eléctrica Pereira, Colombia 2018.

(4)

(5) Lo poquito que haga, hágalo bien echo si no mejor no haga nada. Amado Zapata.

(6)

(7) Agradecimientos Gracias Dios por guiarme en todos mis caminos, tu voluntad es perfecta. Quiero expresar mi mas sincero agradecimiento a los Profesores Andrés Marino Álvarez Meza y David Augusto Cárdenas Peña, los cuales me brindaron su apoyo, paciencia, dedicación y orientación durante la elaboración de esta investigación. Además, me gustarı́a agradecer al Ingeniero Juan Sebastián Blandón Luengas por sus sugerencias y horas de discusión académica. Un agradecimiento muy especial a toda mi familia en especial a mis padres, mi hermano y mis abuelos por ser mi pilar, mi ejemplo de vida y mi inspiración para siempre a superar mis adversidades, gracias por brindarme tanto cariño y amor. Por ultimo, pero no menos importante quiero darle las gracias a mi negra, mi mayor inspiración, gracias por estar a mi lado, gracias por tanto amor, por tanta comprensión... Gracias por todo mi amor, te amo. Además. Este trabajo se realizó en el marco del proyecto “Sistema de visualización de conectividad cerebral efectiva utilizando representaciones kernel orientado a tareas de memoria de trabajo”con código 6-18-1 de la vicerrectorı́a de investigación innovación y extensión UTP..

(8)

(9) Contenido Agradecimientos. 7. List of Figures. 11. List of Tables. 12. Resumen. 1. I. Preliminares. 3. 1. Introducción. 4. 2. Planteamiento del Problema. 6. 3. Objetivos 3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7 7 7. II. Marco Teórico. 8. 4. Reducción de dimensión 4.1. Análisis de componentes principales (PCA) . . . . . . . . . . . 4.1.1. Kernel Análisis de Componentes principales(KPCA) . . 4.2. Escalado multidimensional(MDS) . . . . . . . . . . . . . . . . 4.2.1. Escalado multidimensional métrico (mMDS) . . . . . . 4.2.2. Escalado multidimensional no métrico (NMDS) . . . . 4.3. Embebimiento estocástico de vecinos (SNE) . . . . . . . . . . 4.3.1. Embebimiento de vecinos estocásticos distribuidos en t 4.3.2. Visualizador de Recuperación de Vecinos (NeRV) . . . 4.3.3. Embebimiento de vecinos Jensen-Shannon (JSE) . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (t-SNE) . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. 9 11 13 16 17 18 19 22 24 26.

(10) 10 5. Modelos básicos de clasificación 5.1. Análisis Discriminante Lineal (LDA) . . . . . 5.1.1. Teorema de Bayes para la clasificación 5.1.2. Análisis Discriminate Lineal con p=1 . 5.1.3. Análisis Discriminate Lineal con p>1 . 5.2. Análisis Discriminate Cuadrático (QDA) . . . 5.3. k-Vecinos más Cercanos(K-NN) . . . . . . . .. Contenido. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 28 28 28 29 30 31 32. III. Marco Experimental. 33. 6. Bases de datos 6.1. Rollo Suizo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Imaginación Motora desde señales de de electroencefalografı́a (MIDB) . . . . 6.3. Deserción estudiantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34 34 35 37. 7. Resultados y Discusiones 39 7.1. Resultados Rollo Suizo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.1.1. Preservación de vecindarios . . . . . . . . . . . . . . . . . . . . . . . 40 7.1.2. Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.2. Resultados Motor Imagery . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.2.1. Base de S08 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.2.2. Base de S02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 7.3. Resultados Deserción Estudiantil . . . . . . . . . . . . . . . . . . . . . . . . 61 7.3.1. RESULTADOS SIN PREPROSESAMIENTO DE LAS VARIABLES CATEGORICAS 61 7.3.2. RESULTADOS CON PREPROSESAMIENTO DE LAS VARIABLES CATEGORICAS 69. IV. Discusiones. 76. 8. Conclusiones. 77. Bibliografı́a. 78.

(11) Lista de Figuras 6-1. Rollo Suizo supervisado en 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7-1. Espacios reducidos en dos dimensiones encontrados para el ROL. . . . . . . . . . . 7-2. Preservación de información en los espacios reducidos de (Figura 7-1). . . . . . . 7-3. Resultados de técnicas de discriminación en el espacio original del ROL. . . . . . . 7-4. Resultados de la mejor clasificación en los espacios reducidos del ROL. . . . . . . 7-5. Diagramas de sensibilidad correspondiente a cada matriz de confusión en la Figura 7-6. Espacios reducidos en dos dimensiones encontrados para el sujeto S08. . . . . . . . 7-7. Preservación de información en los espacios reducidos de (Figura 7-6). . . . . . . 7-8. Resultados de técnicas de discriminación en el espacio original del sujeto S08. . . . 7-9. Resultados de la mejor clasificación en los espacios reducidos del sujeto S08. . . . 7-10.Diagramas de sensibilidad correspondiente a cada matriz de confusión en la Figura 7-11.Espacios reducidos en dos dimensiones encontrados para el sujeto S02. . . . . . . . 7-12.Preservación de información en los espacios reducidos de (Figura 7-11). . . . . . . 7-13.Resultados de técnicas de discriminación en el espacio original del sujeto S02. . . . 7-14.Resultados de la mejor clasificación en los espacios reducidos del sujeto S02. . . . 7-15.Diagramas de sensibilidad correspondiente a cada matriz de confusión en la Figura 7-16.Espacios reducidos en dos dimensiones encontrados para UTP-SPC. . . . . . . . . 7-17.Preservación de información en los espacios reducidos de (Figura 7-16). . . . . . . 7-18.Resultados de técnicas de discriminación en el espacio original de la UTP-SPC. . . 7-19.Resultados de la mejor clasificación en los espacios reducidos de la UTP-SPC. . . 7-20.Diagramas de sensibilidad correspondiente a cada matriz de confusión en la Figura 7-21.Espacios reducidos en dos dimensiones encontrados para UTP-CPC. . . . . . . . . 7-22.Preservación de información en los espacios reducidos de (Figura 7-21). . . . . . . 7-23.Resultados de técnicas de discriminación en el espacio original de la UTP-CPC. . 7-24.Resultados de la mejor clasificación en los espacios reducidos de la UTP-CPC. . . 7-25.Diagramas de sensibilidad correspondiente a cada matriz de confusión en la Figura. . . . . . . . . . . . . . . . . 7-4. . . . . . . . . . . . . . . . . . 7-9. . . . . . . . . . . . . . . . . . 7-14. . . . . . . . . . . . . . . . . 7-19. . . . . . . . . . . . . . . . . 7-24.. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. 41 42 44 45 46 48 49 51 52 53 55 56 58 59 60 62 63 65 67 68 70 71 73 74 75.

(12) Lista de Tablas 7-1. Rendimiento promedio de RD con diferentes valores 7-2. Acierto de clasificación en el ROL. . . . . . . . . . 7-3. Rendimiento promedio de RD con diferentes valores 7-4. Acierto de clasificación en el sujeto S08. . . . . . . 7-5. Rendimiento promedio de RD con diferentes valores 7-6. Acierto de clasificación en el sujeto S02. . . . . . . 7-7. Rendimiento promedio de RD con diferentes valores 7-8. Acierto de clasificación en la UTP-SPC. . . . . . . 7-9. Rendimiento promedio de RD con diferentes valores 7-10.Acierto de clasificación en la UTP-CPC. . . . . . .. de perplejidad para . . . . . . . . . . . de perplejidad para . . . . . . . . . . . de perplejidad para . . . . . . . . . . . de perplejidad para . . . . . . . . . . . de perplejidad para . . . . . . . . . . .. el ROL. . . . . . . . . . . . . . el sujeto S08. . . . . . . . . . . el sujeto S02. . . . . . . . . . . UTP-SPC. . . . . . . . . . . . DS-UTP-CPC. . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. 40 43 47 50 54 57 61 64 69 72.

(13) Lista de Tablas. 1. Resumen Este trabajo realiza análisis discriminante de datos utilizando técnicas de reducción de dimensión (RD) con el objetivo de apoyar en tareas de discriminación. Se busca demostrar que la RD favorece el rendimiento de clasificadores como el lineal, cuadrático y K-NN. En análisis incluye una comparación del rendimiento de clasificación en el espacio original con respecto a los espacios reducidos, encontrados por métodos de RD convencionales (PCA, KPCA y NMDS), y no lineales basados en similitud (SNE, tSNE, NeRV y JSE). Los análisis aplicados a bases de datos artificiales como Rollo Suizo (ROL) y bases de datos reales como Imaginación motora (MIDB) y Deserción Estudiantil en la UTP (DS) permiten juzgar el desempeño de la RD y las máquinas de clasificación en diferentes escenarios. Por último, se realizan pruebas de clasificación sobre todas las bases de datos para validar la eficiencia de preservación de información en los métodos de RD basados en similitud en comparación con métodos convencionales. El análisis realizado comprueba que las metodologı́as de RD mejoran en general el desempeño en tareas de discriminación de datos..

(14) 2. Lista de Tablas. Abstract This work creates discriminant data analysis employing dimension reduction techniques with the aim of supporting discrimination tasks. This research looks for demonstrate that the reduction of dimension contributes to the performance of classifiers such as linear, quadratic and K-NN. The analysis includes the comparison of the classification presented in the original space with respect to the reduced spaces, founded by conventional dimension reduction methods (PCA, KPCA y NMDS), and non-linear based on similitude (SNE, tSNE, NeRV y JSE). The analyzes applied to artificial databases as Swiss roll (ROL) and real databases such as motor Imagination (MIDB) and student desertion at the UTP (DS) allow us to analyze the performance of the dimension reduction and classification machines in different contexts. Finally, classification tests are carried out on all the databases to validate the efficiency of information preservation in the methods of dimension reduction based on similitude compared to the conventional methods. The analysis find that dimension reduction methodologies generally improve performance in data discrimination tasks..

(15) Parte I. Preliminares.

(16) 1. Introducción El análisis discriminante es un proceso estadı́stico que aplicado a bases de datos permite estimar las relaciones entre variables predictoras y dependientes. En tareas de agrupamiento y clasificación, la variable dependiente es categórica y sus categorı́as son las etiquetas de cada uno de los grupos existentes, mientras que las variables independientes o predictoras determinan la etiqueta de cada individuo. En otras palabras, el análisis discriminante busca explicar la pertenencia de cada individuo a uno de los grupos existentes en función de las variables independientes. El número de variables clasificadoras empleadas para medir los individuos se conoce como la dimensión del espacio de caracterı́sticas [1]. Cuando clasificamos en estos espacios podemos encontrarnos con dos inconvenientes. Primero, si se utiliza muchas variables independientes para caracterizar un individuo los datos estarı́an aparentemente más dispersos generando problemas en los clasificadores, la maldición de dimensionalidad. De hecho, aplicar técnicas de clasificación directamente a los datos originales usualmente requiere una alta carga computacional y presenta problemas de sobre ajuste [2]. Por el contrario, con pocas variables carecen de información suficiente para caracterizar adecuadamente el individuo, reduciendo el desempeño de las máquinas de discriminación. Con el fin de apoyar las tareas de clasificación, las técnicas de reducción de dimensión (RD) en el espacio original tratan de favorecer la interpretabilidad de la información disponible, reduciendo su complejidad y la cantidad de caracterı́sticas obtenidas. En este sentido, se han desarrollado diversos métodos de RD convencionales, como análisis de componentes principales (PCA) y escalamiento multidimensional (MDS), los cuales están basados en proyecciones lineales que preservan la varianza y el producto punto para realizar el mapeo a baja dimensión. Sin embargo, estos métodos no siempre permiten descubrir correctamente estructuras subyacentes de datos que residen en variedades no lineales [3]. Para resolver este inconveniente, se han desarrollado técnicas como el embedimiento estocástico de vecinos (SNE) y sus variantes las cuales están basadas en similitudes que tratan de conservar a través de un mapeo no lineal a baja dimensión, de tal forma que se supere la maldición de la dimensionalidad. En este trabajo se pretende realizar un análisis discriminante de datos utilizando técnicas de reducción de dimensionalidad. Se espera que las proyecciones a dos dimensiones de las caracterı́sticas originales preserven la mayor cantidad de información relevante, aumentando la interpretabilidad de los datos, mejorando el desempeño de la clasificación, y disminuyendo el costo computacional. Adicionalmente, se analizan los resultados de clasificación en función.

(17) 5 de la preservación de las estructuras para cada técnica de RD empleada. En la primera etapa de este trabajo ( Capı́tulo 4), se definen las técnicas que se emplearon para la extracción de caracterı́sticas, entre las que se encuentran: análisis de componentes principales - PCA (sección 4.1), escalado multidimensional - MDS (sección4.2) y embedimiento estocástico de vecino - SNE (sección 4.3) y las variantes de cada uno. Luego, en el ( Capı́tulo 5), se definen los modelos básicos de clasificación para realizar un análisis discriminante, entre los que se encuentran: análisis discriminante lineal y cuadrático - LDA y QDA (secciones 5.1 y5.2) y k-vecinos mas cercanos - KNN (sección 5.3). En el Capı́tulo 6, se presentan las bases de datos: rollo suizo - ROL (sección6.1), imaginación Motora desde señales de de electroencefalografı́a - MIDB (sección6.2) y deserción estudiantil - DS (sección6.3). Además, se explica el pre-procesamiento realizado en estas con el fin de poder aplicar metodologı́as de reducción de dimensión y clasificación. Posteriormente, en el Capı́tulo7, se muestra las pruebas y los resultados experimentales, en las secciones 7.2,7.1 y7.1, donde se compara la discriminación utilizando técnicas de RD convencionales y no lineales basadas en similitud para las bases de datos propuestas, contra las versiones [4, 5], donde en [4] utilizan un análisis de relevancia mejorado basado en Kenel - EKRA-S, para la discriminación y extracción de caracterı́sticas en los sujetos de la base MIDB. Por otro parte, en [5], cuando utilizan la base de datos de deserción estudiantil en la UTP, facilitan la discriminación dejando solo dos etiquetas y no codifica las variables categóricas lo que ayuda a mejorar el desempeño de los clasificadores. Además, para la RD realizan una selección de caracterı́sticas con análisis de relevancia basado en Kenel - KRA para posteriormente realizar la la discriminación con una SVM. Por ultimo en el Capı́tulo 8, se presentan las conclusiones del trabajo..

(18) 2. Planteamiento del Problema La intuición general que impulsa realizar tareas de análisis discriminante sobre bases de datos, es buscar de agrupar cada una de las muestras en una etiqueta existente de acuerdo a sus variables predictoras. Con el propósito, de poder agrupar correctamente nuevas muestras de acuerdo a sus variables predictoras. El problema que se presenta al aplicar la clasificación en el espacio original es si tienen muchas dimensiones, los datos aparentemente estarı́an dispersos generando problemas en los clasificadores. De hecho, aplicar tecnicas de clasificacion directamente en el espacio original usualmente requiere una alta carga computacional y se presenta problemas de sobreajuste. En este sentido, se presenta la necesidad de encontrar espacios de baja dimensión que favorezcan la interpretabilidad del fenómeno en estudio y la separabilidad de los grupos, buscando extraer caracterı́sticas con el propósito de encontrar un espacio reducido a partir del espacio original, para aplicar técnicas de discriminación y realizar un análisis comparativo con respecto a la clasificación en el espacio original. Ahora bien, la intuición general que impulsa este trabajo es realizar un análisis discriminante de datos utilizando técnicas de reducción de dimensionalidad, buscando que los espacios reducidos encontrados en dos dimensiones favorezcan el desempeño para las tareas de discriminación en diferentes tipos de bases de datos. Además , de cómo implementar una metodologı́a de técnicas de RD no lineales basados en similitud que favorecen la preservación de la información y ver su rendimiento en tareas de clasificación con respecto a técnicas de RD que convencionales. Debido al anterior problema planteado se llega a la siguiente pregunta de investigación: ¿Cómo pueden acoplarse técnicas de reducción de dimensionalidad basadas en representaciones por similitud con tareas de análisis discriminante, en aras de resaltar patrones relevantes e interpretables en espacios de baja dimensión?.

(19) 3. Objetivos 3.1.. Objetivo general. Desarrollar una metodologı́a de reducción de dimensionalidad basada en representaciones por similitud con el fin de apoyar tareas orientadas al análisis discriminante de datos sobre espacios de alta dimensión.. 3.1.1.. Objetivos Especı́ficos. Realizar un análisis comparativo de diferentes estrategias de reducción de dimensionalidad no lineal basadas en representaciones por similitud, a partir de su capacidad de codificación en espacios 2D y la preservación de vecindarios. Implementar técnicas de análisis discriminante sobre espacios reducidos encontrados a partir de estrategias de reducción de dimensionalidad no lineal basadas en representaciones por similitud. Realizar un análisis comparativo del desempeño del análisis discriminante sobre espacios reducidos en términos de acierto de clasificación en bases de datos de alta dimensión..

(20) Parte II. Marco Teórico.

(21) 4. Reducción de dimensión En los problemas de aprendizaje automático, la de reducción de dimensionalidad (RD) se refiere al problema de poder reproducir representaciones fieles y significativas de datos de alta dimensión en un espacio de menor dimensión, buscando preservar la mayor cantidad de información posible. Ası́ mismo, observamos que el objetivo principal de la reducción de dimensión es que los elementos de datos cercanos o similares deben representarse uno cerca del otro, mientras que los diferentes se deben representar lejos el uno del otro.[6] En general, la reducción de dimensión se entiende como la representación de patrones de alta dimensión en un espacio de menor dimensión basado en alguna transformación que optimiza una función criterio o de evaluación [7]. Es importante tener en cuenta, que al disminuir la cantidad de caracterı́sticas o variables del espacio inicial, debe conservarse la mayor cantidad de información posible y la más relevante según el análisis que se desee realizar. La reducción de dimensión puede realizarse de dos formas, realizando una selección de un subconjunto de caracterı́sticas (selección de caracterı́sticas), o a través de una combinación de las caracterı́sticas de entrada (extracción de caracterı́sticas).[3] El objetivo principal de la reducción de dimensión es encontrar una transformación de las p variables originales a un espacio m, donde m < p. Dicha transformación puede ser una una combinación lineal o no lineal del conjunto original de datos (extracción lineal o no lineal de caracterı́sticas), y puede ser supervisada o no supervisada, es decir, puede contener o no información acerca de la etiqueta de clase de cada observación [8]. Por otra parte, existen varias razones importantes para reducir la dimensionalidad, como: mejorar el rendimiento de clasificación, disminuir la información irrelevante, encontrar estructuras de datos subyacentes, obtener una representación de datos gráficos para el análisis visual, entre otros. Las técnicas de reducción de dimensionalidad intentan descubrir estructuras subyacentes en espacios de baja dimensión a partir de datos que se encuentran en espacios de alta dimensión, lo que comúnmente es llamado preservación del vecindarios.[2]. Selección de caracterı́sticas La selección de caracterı́sticas se refiere al proceso de seleccionar un subconjunto de caracterı́sticas relevantes. Para resolver problemas de clasificación, la selección de caracterı́sticas intenta encontrar el conjunto de caracterı́sticas más relevante con un alto poder de discriminación.[9] Los métodos de selección de caracterı́sticas se han clasificado en tres tipos, a saber, filtro, envoltura y métodos integrados.[10] Los métodos de filtro realizan pruebas estadı́sticas para distinguir las caracterı́sticas más importantes y.

(22) 10. 4 Reducción de dimensión. relevantes de las menos relevantes, los métodos de envoltura encuentran el mejor conjunto de caracterı́sticas mediante el uso de modelos capacitados, y los métodos integrados seleccionan las caracterı́sticas durante la capacitación del modelo. Por lo tanto, la selección de caracterı́sticas depende de la información de la etiqueta para seleccionar caracterı́sticas excelentes. En comparación con la selección de caracterı́sticas, la extracción de caracterı́sticas reduce el número de variables al transformar una gran cantidad de atributos en un conjunto reducido de caracterı́sticas.. Extracción de caracterı́sticas La extracción de caracterı́sticas se refiere al proceso donde se utilizan todas las variables disponibles, para realizar la transformación con el fin de reducir la dimension del espacio inicial de los datos. Ası́ pues, el propósito es reemplazar el conjunto de variables originales por un pequeño conjunto de variables subyacentes.[3] En otras palabras, la extracción de caracterı́sticas puede garantizar una menor pérdida de información y un mayor poder de discriminación que la selección de caracterı́sticas.[11] Algunas de las técnicas de extracción de caracterı́sticas más comúnmente empleadas se describen a continuación..

(23) 4.1 Análisis de componentes principales (PCA). 4.1.. 11. Análisis de componentes principales (PCA). El análisis de componentes principales (PCA - Principal Component Analysis) es una técnica lineal que utiliza un procedimiento de optimización para llevar a cabo la extracción de caracterı́sticas donde se busca representar un conjunto de datos de dimensión p en un espacio de menor dimensión m tratando de preservar la mayor cantidad de información posible, con el fin de mejorar la interpretabilidad de los datos para futuros análisis en estos. [12] Ademas, PCA posee un gran atractivo con diferencia a otros métodos de reducción de dimensión el cual recae en su simplicidad en la capacidad de hacer una reducción de dimensión, minimizando el error cuadrático de reconstrucción producido por una combinación lineal de variables latentes, conocidas como componentes principales, las cuales el primer componente principal es obtenido por la combinación lineal con máxima varianza, el segundo componente principal es obtenido por la combinación lineal con máxima varianza en una dirección ortogonal al primer componente principal y ası́ sucesivamente.[13] Los parámetros del modelo pueden calcularse directamente de la matriz de datos X, bien sea por descomposición en valores singulares o por la diagonalización de la matriz de covarianza (positiva semidefinida). En términos matemáticos, PCA realiza una proyección lineal que maximiza la varianza a través de una función de costo. Esto puede hacerse por los componentes principales de la matriz de covarianza Sa1 [14]. De esta manera,PCA resuelve el problema de los valores propios de la siguiente manera: Sea X la matriz de datos del espacio original de dimensión n × p, n corresponde a las observaciones y p a las variables X = {xij }. i = 1, . . . , n;. j = 1, . . . , p,. (4-1). la media de cada una de las variables es igual a cero. Considerando el punto xi y una dirección a1 = [a11 , a12 , . . . , a1p ]⊤ definida por el vector a1 de norma unidad, la proyección del punto xi sobre esta dirección es ⊤ zi = a⊤ 1 xi .. (4-2). Debido a que las proyecciones zi son variables con media cero, maximizar sus cuadrados es equivalente a maximizar su varianza, lo que significa encontrar la dirección de proyección que maximice la varianza de los datos proyectados, ası́ máx a1. n X i=1. zi2. = máx a1. n X. ⊤ a⊤ 1 xi xi a1 .. (4-3). i=1. Teniendo el vector de proyecciones z1 = [z1 , z2 , . . . , zi , . . . , zn ]⊤ = Xa1 ,. (4-4).

(24) 12. 4 Reducción de dimensión. es posible reescribir (4-3) como   ⊤ z1 = máx a⊤ máx z⊤ 1 1 X Xa1 . a1. (4-5). a1. Por otra parte z1 tiene media nula, mientras su varianza σ es σ=. 1 1 ⊤ z1 z1 = a⊤ X⊤ Xa1 n n 1. (4-6). σ = a⊤ 1 Sa1 ,. (4-7). donde S es la matriz de covarianza de las observaciones. Para conservar la mayor cantidad de información es necesario maximizar (4-7). Para lograr este objetivo se utilizan los multiplicadores de Lagrange, tal que aT1 a1 = 1, incorporando esta restricción se obtiene  ⊤ L = a⊤ 1 Sa1 − λ a1 a1 − 1 .. (4-8). (4-9). Para maximizar el valor de (4-9) se deriva respecto a a1 e igualando a cero se obtiene ∂L = 2Sa1 − 2λa1 = 0, ∂a1. (4-10). Sa1 = λa1 .. (4-11). finalmente. Por lo cual a1 es un vector propio de la matriz S asociado al valor propio λ, que corresponde a la varianza de z1 . Además a1 es el vector propio asociado al mayor valor propio de S por lo cual se convierte en el primer componente principal. La transformación al espacio de menor dimensión m esta dada por los vectores propios asociados a los m mayores valores propios de S. El Algoritmo 1, presenta los pasos de PCA. Algorithm 1 – Cálculo de los componentes principales - PCA 1: 2: 3: 4: 5:. Centralizar la matriz de datos X (hacer que cada variable tenga media cero). Obtener la matriz de covarianza S = n1 X⊤ X. Calcular los valores propios de la matriz S y sus respectivos vectores propios. Ordenar de forma descendente los valores propios. Proyectar los datos sobre las direcciones principales luego del ordenamiento de los valores propios. El número de dirección principales puede ser igual al número de variables deseadas en el espacio de menor dimensión o al número de componentes necesarios para conservar una determinada variabilidad de los datos en el espacio de baja dimensión..

(25) 4.1 Análisis de componentes principales (PCA). 4.1.1.. 13. Kernel Análisis de Componentes principales(KPCA). El Kernel Análisis de Componentes principales(KPCA), es una extensión del método Análisis de Componentes principales(PCA) estándar el cual solo permite la reducción de la dimensionalidad lineal. Sin embargo, si los datos tienen estructuras no lineales, el PCA estándar no será muy útil como técnica de RD. En cambio, el KPCA permite generalizar el PCA estándar en una tecnica de reducción de dimensionalidad no lineal. Mediante, el uso de funciones integrales de operadores kernel, que permiten calcular de manera eficiente los componentes principales en espacios de caracterı́sticas de alta dimensión, relacionándolos con el espacio de entrada por un maneo no lineal.[15] Es posible sustituir el espacio original de las muestras X , que corresponde a Rp , por un espacio provisto de producto punto H (Espacio Hilbert) mapeado a través de φ : X → H. Por el momento, suponemos que nuestros datos se asignaron al espacio de caracterı́sticas l P φ(X1 ), . . . , φ(Xl ), es centrado en H, es decir φ(XK ) = 0. Procedemos a utilizar PCA k=1. para construir la matriz de covarianza en el nuevo espacio: n. CH =. 1X φ(Xi )φ(Xi )T n i=1. (4-12). Si H es de dimensión infinita, se puede pensar que de φ(Xi )φ(Xi )T como el operador lineal que transforma h ∈ H a φ(Xi )(φ(Xi ), h). para este caso se deben encontrar los valores propios que no son nulos (λ > 0) y sus vectores propios UH que satisfacen λUH = CH UH. (4-13). De igual manera, las soluciones de UH se encuentran definidas dentro del espacio generado por {φ(X1 ), φ(X2 ), . . . , φ(Xn )}. Entonces, λ(φ(Xk ), UH ) = (φ(Xk ), CH UH ),. ∀K = 1, ..., n. (4-14). Ademas, para los vectores propios es posible definir los en términos de los datos mapeados en H: n X UH = αi φ(Xi ) (4-15) i=1. Combinando las ecuaciones (4-15 y 4-14), se obtiene λ. n X i=1. αi (φ(Xk ), φ(Xi )) =. n n X 1X αi (φ(Xk ), φ(Xj ))(φ(Xj ).φ(Xi )), n i=1 j=1. ∀K = 1, ..., n (4-16). Definiendo la matriz K como kij = (φ(Xi ), φ(Xj )), se obtiene nλKα = K 2 α. (4-17).

(26) 14. 4 Reducción de dimensión. donde α denota el vector columna que sintetiza las representación de UH dada en (4-15), a través del conjunto de observaciones mapeadas por φ. Debido a la simetrı́a de K, sus vectores propios en generan el espacio completo; por tanto nλα = Kα. (4-18). genera las soluciones respectivas de la ecuación (4-17). De esta forma , los valores propios asociados a α corresponden a nλ; En consecuencia, cada uno de los UH corresponden al mismo ordenamiento de los α. Es necesario trasladar la restricción de k UH k= 1 a los correspondientes vectores propios de K : 1=. n X. αi αj (φ(Xi ), φ(Xj )) = λ(α, α). (4-19). i=1. Para ka extracción de los componentes principales, deben proyectarse los datos mapeados a H sobre los respectivos vectores propios seleccionados. podemos hacer uso de (UH , φ(X)) =. n X. αi (φ(Xi ), φ(X)). (4-20). i=1. La centralización de los datos es posible al remplazar la matriz K por su correspondiente versión centralizada: K̃ = K − 1n K − K1n + 1n K1n. (4-21). donde 1n es una matriz cuadrada de tamaño nxn cuyas entradas son 1/n. Para los m datos de prueba en el vector t que deben ser mapeados se tiene: Kijtest = (φ(ti ), φ(Xj )). (4-22). y su version centralizada (Matriz de Gram): ′. ′. K̃ test = K test − 1n K − K test 1n + 1n K1n. (4-23). donde 1n es una matriz de tamaño mxn cuyas entradas son 1/m. Y los componentes principales usando kernel pueden calcularse como: yk (x) = φ(x)T UH =. N X. ′. αki k(x, x ). (4-24). i=1. Ahora bien ya con el problema planteando de PCA en términos de los productos punto entre las muestras mapeadas a través de un espacio H. Podemos usar una función k : X × X ′ ′ la cual, representa el producto punto en H es decir, k(x, x ) = (φ(x), φ(x )), para calcular las componentes principales debemos escoger una función Kernel. Entre las funciones kernel mas comunes están:.

(27) 4.1 Análisis de componentes principales (PCA). 15. Kernel lineal: corresponde al producto punto en el espacio de entradas: ′. ′. k̃(x, x ) = (x, x ). (4-25). Kernel polinomial: representa la expansion a todas las combinaciones de monomios de orden d, y esta dada por: ′. ′. k̃(x, x ) = (x, x )d. (4-26). Kernel gaussiano: está contenido dentro de las funciones de base radial: ′. k x, x k2 k̃(x, x ) = exp(− ) 2σ 2 ′. (4-27). Kernel lineal: está asociado a las funciones de activación de las redes neuronales: ′. ′. k̃(x, x ) = tanh(ξ(x, x ) + b). (4-28). los parámetros ξ > 0 y b < 0 denotan escala y corrimiento, respectivamente. El Algoritmo 2, presenta los pasos de KPCA. Algorithm 2 – Cálculo de los componentes principales con Kernels - KPCA Dado los {x1 , . . . , xn } ∈ V ⊆ Rp y dado un kernel k : VxV → R 2: Se construye la matriz de Gram K̃ con elementos Kij = k(xi , xj ) 3: Usando la ecuación (4-18), para resolver los vectores αi (sustituyendo K con K̃ ). 4: Calcular con el Kernel las componentes principales yk (x) usando la ecuación (4-24). 1:.

(28) 16. 4.2.. 4 Reducción de dimensión. Escalado multidimensional(MDS). El escalamiento multidimensional (MDS), también se conoce como Análisis de coordenadas principales (PCoA), Escala de Torgerson o Escala de Torgerson-Gower. Es una técnica estadı́stica multivariante que combina su potencia analı́tica para reducir datos con su potencia gráfica para representarlos en un espacio de baja dimensionalidad.[?] Este, toma una matriz de proximidad de entrada D = [dij ], cuadrada de p × p dimensiones, que proporciona p distancias (generalmente euclidianas) entre pares de elementos (ith y j th ), donde dij = (xi − xj )2 + (yi − yj )2 , y salidas para coordinar la matriz cuya configuración minimiza la función de pérdida strain.[16, 17] Para emplear la técnica MDS, primero suponemos que los datos los cuales van a se analizados son una colección de I muestras, en la que definimos una función de distancia, δij := es la distancia entre ith y j th muestras.   δ1,1 δ1,2 . . . δ1,I δ2,1 δ2,2 . . . δ2,I    (4-29) ∆ :=  . ..  .. . . .  . . .  . δI,1 δI,2 . . . δI,I. El objetivo de MDS es, dado ∆, para encontrar I vectores {x1 , . . . , xI } ∈ RN tal que kxi − xj k ≈ δij ∀i, j ∈ {1, . . . , I}, donde kxi − xj k es un vector norma. en el clasico MDS, esta norma es la distancia euclidiana, pero, en un sentido más amplio, puede ser una función de distancia métrica o arbitraria. Ahora bien, la forma general de la función strain en el MDS clásico esta dada por: ! 21 P 2 ij (bij − (xi , xj )) P 2 StrainD (x1 , x2 , · · · , xN ) = (4-30) ij bij Donde bij son los términos de la matriz de productos cruzados B, puede derivarse por descomposición de valores propios de B = XX ′ . Y puede ser calculada a partir de la matriz de proximidad utilizando un centrado doble: 1 B = − JD(2) J 2 Usando la matriz de centrado J = J −. (4-31) 1 ′ 11 , donde n es el numero de muestras. n. Determinar los m valores propios mayores {λ1 , λ2 , . . . , λm } y su correspondiente vector propio {e1 , e2 , . . . , em } de B, donde m es el numero de dimensiones designados para la salida. Se calcula las coordenadas de los puntos en las variables mediante: 1. 2 Y = Em Λm. (4-32).

(29) 4.2 Escalado multidimensional(MDS). 17. donde Em es la matriz de m vectores propios y Λm es la matriz diagonal de m valores propios de B. Y es la matriz de coordenadas de dimensión n × m, con mvariables no correlacionadas que reproducen la métrica inicial. Cuando se busca una representación de menor dimensión, entonces solo se toman aquellos vectores propios asociados a los m valores propios de mayor valor, dondem < p [18].. 4.2.1.. Escalado multidimensional métrico (mMDS). Es una mejora del MDS clasico que generaliza en el procedimiento de optimización en funciones de perdida y matrices de entrada de distancias. la función de perdida stress es minimizada usando stress majorization donde, para un conjunto de muestras n m − dimensionales, se busca una configuración X de n puntos en r >> m espacio dimensional que minimiza la función de perdida stress. !1/2 X (dij − kxi − xj k) ... (4-33) Stress (x1 , x2 , · · · , xN ) = i6=j=1···N. donde el mMDS utiliza transformación de potencia con un exponente controlado por el usuario p : dpij y −d2p ij para distancia. Una clásica escala p = 1. El Algoritmo 3 presenta el procedimiento para obtener las coordenadas principales a partir de la matriz de distancias D.[3] Algorithm 3 – Construcción de las coordenadas principales (MDS) 1:. A partir de la matriz de distancias D construir la matriz de productos cruzados 1 B = − JD(2) J. 2. Obtener los valores propios de B. 3: Tomar los m mayores valores propios, donde m se escoge de manera que los restantes p − m valores propios sean próximos a cero. √ 4: Obtener las coordenadas de los puntos en las variables mediante ei λi , donde λi es un valor propio de B y ei su vector propio asociado, que implica aproximar B por. 2:. B ≈ Em Λ1/2 m. .  1/2 ⊤ Λm Em ,. y tomar como coordenadas los puntos de las variables Ym = Em Λ1/2 m ..

(30) 18. 4.2.2.. 4 Reducción de dimensión. Escalado multidimensional no métrico (NMDS). También conocido como escalado ordinal, es una técnica que a diferencia con el MDS métrico, el MDS no métrico tiene una función entre conjuntos de muestras ordenados que pueden conservar o invertir el orden, ademas esta función no es métrica entre las disimilitudes en la matriz de elemento-elemento y las distancias euclidianas de entre los elementos.[?] Además, el procedimiento es iterativo y requiere que se especifique una configuración inicial de los puntos. Se asume que la matriz de similitudes está relacionada con la matriz de distancias, pero de manera compleja. Ası́, las variables que explican las similitudes entre los elementos comparados, determinarán distancias euclidianas entre ellos, dab , que están relacionadas con las similitudes dadas, qab , mediante una función desconocida qab = f (dab ) ,. (4-34). donde la única condición que se impone es que la función f en 4-34 sea una función monótona. El objetivo es encontrar unas coordenadas que sean capaces de reproducir estas distancias a partir únicamente de la condición de monotonı́a. Lo anterior obliga a definir un criterio de costo que sea invariante ante transformaciones monótonas de los datos y un algoritmo que permita optimizar el criterio establecido [19, 12]. El procedimiento más utilizado es minimizar las diferencias entre las distancias derivadas en las coordenadas principales, dˆ2ab , y las similitudes de partida qab , o sea, minimizar XX. qab − dˆ2ab. 2. ,. para todos los términos de la matriz. Esta cantidad se puede estandarizar para favorecer las comparaciones, con lo que se obtiene el criterio de ajuste conocido como stress, dado por 2 P 2 ˆ qab − dab a<b 2 P 2 S = . (4-35) qab a<b. Las distancias dˆ2ab se determinan encontrando p coordenadas principales que se utilizan como variables implı́citas yij que determinan distancias euclı́deas entre elementos dˆ2ab =. p X j=1. (yaj − ybj )2 .. (4-36). Es frecuente tomar p = 2 por facilidades gráficas, pero el número de dimensiones necesario para una buena representación puede estimarse probando diferentes valores de p y estudiando la evolución del criterio. El método de cálculo es iniciar de la solución proporcionada por las coordenadas principales e iterar para mejorar esta solución minimizando el criterio 4-35 donde las distancias se calculan por 4-36..

(31) 4.3 Embebimiento estocástico de vecinos (SNE). 4.3.. 19. Embebimiento estocástico de vecinos (SNE). La tecnica de Embebimiento estocástico de vecinos (SNE), es una técnica probabilı́stica para la reducción de la dimensionalidad no lineal. Con la noción de integración de muestras basada en los vecinos probables, donde intenta colocar los objetos en un espacio de baja dimensión para preservar de manera óptima la identidad del vecindario o dicho de otra forma la preservación local.[20] Ademas, el SNE es identificado con el termino de la preservación de similitud genuina. Donde, en contraste con los métodos espectrales que convierten directamente las similitudes de pares definidas en productos internos en el espacio alta dimensión, SNE compara las similitudes que se calculan tanto en los espacios alta dimensión como baja dimensión.[6] El SNE mide entre los puntos la probabilidad de que estos puntos sean vecinos. Para hacerlo, SNE comienza convirtiendo las distancias euclidianas en probabilidades condicionales pij , donde pij marca la probabilidad de que xi elija xj como su vecino a través de una función gausiana centrada en el punto.[14] Sea Ξ = [ξi ]1≤i≤N denotando una base de N puntos en un espacio dimensional M. Similar mente, Sea X = [xi ]1≤i≤N es su representación en un espacio dimensional P , con P ≤ N. Las distancias euclidianas entre los puntos i y j están dadas por δij = kξi − ξj k2 y dij = kxi − xj k2 en el espacio de alta y baja dimensión respectivamente. Entonces, en alta dimensión para cada objeto, i, y cada vecino potencial, j, comenzamos por calcular su probabilidad asimétrica, pij , que i elegirı́a a j como su vecino:  exp −γij2 pij = P (4-37) 2 k6=i exp (−γik ) Las diferencias de dij se puede dar como parte de la definición del problema (y no es necesario ser simétrico), o se pueden calcular utilizando la distancia euclidiana cuadrada escalada (”afinidad”) entre dos puntos de alta dimensión, ξi ; ξj :. γij2 =. kξi − ξj k2 2σi2. (4-38). Donde σi es establecido a mano o (como en algunos de nuestros experimentos) encontrado por una búsqueda binaria para el valor de σi que hace que la entropı́a de la distribución sobre los vecinos sea igual a log(K). Aquı́, σ es el número efectivo de vecinos locales o ”perplexidad” y se elige a mano.[20] La perplexidad se define como: σ = Perp(Pi ) = 2H(Pi ) ,. (4-39).

(32) 20. 4 Reducción de dimensión. Donde H(Pi ) es la entropia de Shannon de Pi medida en bits: X H(Pi ) = − pj|i log2 (pj|i ).. (4-40). j. El rendimiento de SNE es bastante robusto a los cambios en la perplexidad, y los valores tı́picos están entre 5 y 50. En el espacio de baja dimensión también usamos vecindarios gaussianos pero con una varianza fija, entonces la probabilidad inducida qij él punto i escoge como vecino a j en función de las imágenes de baja dimensión xi de todos los objetos y estada dada por la expresión: exp(−gij2 ) 2 k6=i exp(−gik ). qij = P. donde gij = g(dij ).. (4-41). Gracias a la positividad y la normalización, los vectores pi = [pij ]1≤j≤N y qi = [qij ]1≤j≤N Puede verse como distribuciones de probabilidad discretas. Por lo tanto, las divergencias se pueden utilizar para evaluar su desajuste En el SNE, la divergencia de Kullback-Leiber entre las distribuciones originales (pij ) e inducidas (qij ) es usada, se define como:. DkKLt1 (pij k qij ) =. X j. pij ln. ( qij ). pij. (4-42). El objetivo de este embebimiento es lograr coincidir lo mejor posible estas dos distribuciones. Esto se puede, al minimizar la función de costo la cual es la suma de divergencias KullbackLeiber entre las distribuciones originales (pij ) e inducidas (qij ) sobre los vecinos por cada muestra: X E(X; Ξ, σ) = DkKLt1 (pi k qi ). (4-43) i. La dimensionalidad del espacio y se elige a mano. Se observa que hacer qij grande cuando pij es pequeño desperdicia parte de la masa de probabilidad en la distribución q por lo que hay un costo para modelar una gran distancia en el espacio de alta dimensión con una pequeña distancia en el espacio de baja dimensión, aunque es menor que el costo de modelado una pequeña distancia con una grande.[20] La diferenciación de E es tediosa porque xk afecta a qij a través del término de normalización en Eq.4-41, pero el resultado es simple: X ∂C (qi ; pi ) X ∂qij ∂gpq ∂E = = c′ (qij ; pij ) , ∂xh ∂x ∂g ∂x h pq h i i,j,p,q. (4-44).

(33) 4.3 Embebimiento estocástico de vecinos (SNE). 21. El tercer factor esta dado por: ∂dpq ∂gpq = g ′(dpq ) . ∂xh ∂xh. (4-45). si nosotros definimos wij = (1 − k)(pij − qij ) + kqij (ln(. pij ) + DKL (qi k pi )). qij. (4-46). En SNE tenemos k = 0 y por lo tanto wij = pij − qij . Por lo tanto: g(dij ) =. dij 2. y. g ′ (dij ) = 1. dij. (4-47). Entonces terminamos con: N. X g ′(dij ) ∂E = (wij + wji ) (xi − xj ). ∂xi d ij j=1. (4-48). El cual se interpreta como la suma de fuerzas que tiran o lo alejan de xi hacia xj dependiendo si se observa que j es un vecino mas o menos deseado de i. Además, esta derivada parcial proporciona una dirección de búsqueda que se puede conectar en muchas técnicas de optimización basadas en gradientes. [6] La mayorı́a de ellos trabajan de manera iterativa, con varias actualizaciones sucesivas de una conjetura inicial. Las técnicas de Newton y quasi-Newton son demasiado exigentes en términos de consumo de memoria, una actualización simplificada pero aún genérica se puede escribir como: (t) ∂E. Xi (t+1) = Xi (t) − µi (t). ∂xi. ,. (4-49). Donde µi es un tamaño de paso. El Algoritmo 4 presenta el procedimiento simple de Embebimiento estocástico de vecinos (SNE)..

(34) 22. 4 Reducción de dimensión. Algorithm 4 – Versión simple de Embebimiento estocástico de vecinos (SNE) Datos: Base de datos Ξ = {ξ1 , ξ2, ........., ξn }, 2: Parámetros de la función de costo: perplexidad (Perp), 3: Optimización de parámetros: Numero de iteraciones T, Tasa de aprendizaje η, Tamaño (t) de paso µi . 4: Resultado: Representación de datos en baja dimensión X (T ) = {x1 , x2 , ......xn }. begin Calcular los pares afines pi|j con preplexidad Perp (usando Ecuación 4-37) p +p conjunto pij = j|i2n i|j Solución inicial de muestra X (0) = {x1 , x2 , .....xn }. desde N(0, 10−4I) for t = I to T do calcular las afinidades de baja dimensión qij (usando Ecuación 4-41) ∂E calcular el gradiente ∂x (usando Ecuación 4-48) i. 1:. (t) ∂E ∂xi. conjunto Xi (t) = Xi (t+1) + µi end end. 4.3.1.. Embebimiento de vecinos estocásticos distribuidos en t (t-SNE). El t-SNE es una variante del método SNE, aunque SNE construye visualizaciones razonablemente buenas, se ve obstaculizada por una función de costo que es difı́cil de optimizar y por un problema al que nos referimos como el ”problema de hacinamiento”. [21] El t-SNE emplea una distribución de probabilidad cuyas colas no tienen lı́mites exponenciales en el espacio de baja dimensión para mejorar problemas de hacinamiento y optimizar la función de costo. Las 2 principales diferencias de la función de costo de estos métodos son: El t-SNE usa una versión simetrizada de la función de costo de SNE con gradientes más simples. El t-SNE usa una distribución t Student [22], en lugar de una gaussiana para calcular la similitud entre dos puntos en el espacio de baja dimensión. Dado que el SNE en realidad está emparejando las probabilidades conjuntas de pares de puntos de datos, en los espacios de alta dimensión y baja dimensión presentando problemas de hacinamiento. Para solucionar este, en el espacio de alta dimensión convertimos las distancias en probabilidades pij , usando una distribución gaussiana de la misma manera que en el SNE (Ecuación 4-37). Sin embargo, en el espacio de baja dimensión, podemos usar una distribución de probabilidad que tiene colas mucho más pesadas que una gaussiana para.

(35) 4.3 Embebimiento estocástico de vecinos (SNE). 23. convertir las distancias en probabilidades. Con esto se permite que una distancia moderada en el espacio de alta dimensión sea representada fielmente por una distancia mucho mayor en el mapa de baja dimensión y, como resultado, se logra eliminar las fuerzas de atracción no deseadas entre los puntos del mapa que representan puntos de datos moderadamente diferentes.[21] En t-SNE, se emplea una distribución t de Student con un grado de libertad (que es lo mismo que una distribución de Cauchy [22]) que la distribución de cola pesada en el mapa de baja dimensión. Usando esta distribución, las probabilidades qij se definen como: (1 + qij2 /m)−(m+1)/2 P qij = 2 −(m+1)/2 k (1 + qij /m). (4-50). Esta cantidad se detiene para: g(u) =. m+1 ln(1 + u2 /m). 2. (4-51). Se utiliza una distribución t Student con un solo grado de libertad, ya que tiene particularmente la propiedad de que (1+kyi − yj k2 )−1 se aproxima a una ley del cuadrado inverso para grandes distancias de pares kyi − yj k en el mapa de baja dimensión. Significa que grandes grupos de puntos que están muy alejados interactúan de la misma manera que los puntos individuales, por lo que la optimización funciona de la misma manera en todas las escalas.[21] El gradiente de la divergencia de Kullback Leibler entre P y la distribución de probabilidad conjunta Q basada en t de Student es calculado usando la (Ecuación 4-42). La funcion de costo del t-SNE se escribe como:. E(X; Ξ, σ) =. X. H(pi ) + H(pi ; qi ).. (4-52). i. Donde H(pi ) es proporcional a la entropia de Shannon para pi y puede ser interpretado como una lı́nea de base constante. Se deriva de la Ecuación 4-52 , obteniendo: X ∂E =4 (xi − xj ) (pij − qij ) (1 + kxi − xj k2 )−1 ∂xi j. (4-53). Los valores positivos del gradiente (Ecuación 4-53) representan una atracción entre los puntos de datos de baja dimensión xi y xj , mientras que los valores negativos representan una repulsión entre los dos puntos de datos. Observamos dos ventajas principales del gradiente t-SNE sobre el gradiente de SNE.[21].

(36) 24. 4 Reducción de dimensión. Primero, el gradiente t-SNE repele fuertemente los puntos de datos disı́miles que son modelados por una pequeña distancia de pares en la representación dimensional baja. SNE también tiene tal repulsión, pero su efecto es mı́nimo en comparación con las fuertes atracciones en otras partes del gradiente (la mayor atracción en nuestra representación gráfica del gradiente es aproximadamente 19, mientras que la mayor repulsión es aproximadamente 1. En segundo lugar, aunque t-SNE introduce fuertes repulsiones entre puntos de datos diferentes que están modelados por pequeñas distancias de pares, estas repulsiones no llegan al infinito. En general, t-SNE pone énfasis en (1) modelar puntos de datos diferentes mediante distancias de pares grandes, y (2) modelar puntos de datos similares mediante distancias de pares pequeños. Especı́ficamente, t-SNE introduce fuerzas de largo alcance en el mapa de baja dimensión que pueden juntar dos grupos de puntos similares que se separan desde el principio en la optimización de su función de costo. SNE no tiene tales fuerzas de largo alcance, como resultado de lo cual SNE necesita usar reconocimiento simulado para obtener soluciones razonables. En cambio, las fuerzas de largo alcance en t-SNE facilitan la identificación de buenos óptimos locales sin recurrir al reconocimiento simulado.[21] El algoritmo que se emplea en el t-SNE es el mismo que se emplea en el SNE (4), con la diferencia de que se utilizan la ecuación (4-50) para las afinidades de baja dimensión y la ecuación (4-53) para calcular el gradiente.. 4.3.2.. Visualizador de Recuperación de Vecinos (NeRV). El NeRV es una variante del método SNE (Embebimiento Estocástico de vecinos), donde se toma como un caso especial en cual la compensación se establece de modo que solo se maximiza la recuperación; Por lo tanto, le damos una nueva interpretación de recuperación de información a SNE.[23] En SNE, la función de costo es una suma de las divergencias Kullback − Leibler (KL). Para cada dato, una divergencia mide el desajuste entre una distribución a priori de sus vecinos en el espacio alta dimensión y la distribución correspondiente calculada en el espacio baja dimensión. Como la divergencia KL es asimétrica con respecto a las dos distribuciones que compara, NeRV también implica la divergencia KL ”dual”, donde se intercambian las dos distribuciones. Un metaparámetro controla el peso de dos divergencias duales en la función de costo[6]. En una perspectiva de recuperación de información, se ha demostrado que este metaparámetro permite que NeRV alcance diferentes compromisos entre precisión y recuperación [23]. El NeRV implica una mezcla tipo 1 de divergencias KL, es decir, una mezcla lineal de dos divergencias duales.[24].

(37) 4.3 Embebimiento estocástico de vecinos (SNE). 25. Sea Ξ = [ξi ]1≤i≤N denotando una base de N puntos en un espacio dimensional M. Similar mente, Sea X = [xi ]1≤i≤N es su representación en un espacio dimensional P , con P ≤ N. Las distancias euclidianas entre los puntos i y j están dadas por δij = kξi − ξj k2 y dij = kxi − xj k2 en el espacio de alta y baja dimensión respectivamente. En NeRV, las similitudes asociadas con δij y dij están definidas por: i 6= j por: exp(−γij ) k,k6=i exp(−γik ). pij = P. y. qij = P. exp(−gij ) , k,k6=i exp(−gik ). (4-54). Donde γij = γ(δij /2σi2 ) y gij = g(dij ). Las funciones γ y g ambas son funciones no negativas con derivada no negativa. En NeRV, las similitudes son gausianas, γ y g siendo definido como: γ (u) = g (u) = u2 /2.. (4-55). Para el NeRV, la función de costo combina dos divergencias KL duales. El resultado de la combinación también es una divergencia y puede escribirse como: DkKLt1 (pij k qij ) = (1 − k)DKL (pij k qij )) + kDKL (qij k pij )),. (4-56). Donde 0 ≤ k ≤ 1 es un parámetro que controla la importancia de ambos términos. La función de costo de NeRV es entonces: E(X; Ξ, σ, k) =. X i6=j. DkKLt1 (pij k qij ) .. (4-57). La divergencia DkKLt1 (pij k qij ) utilizado en NeRV puede reescribirse en discretas entropı́as de Shannon y entropı́as cruzadas, a saber, DkKLt1 (pij k qij ) = (1 − k)(H(pij , qij ) − H(pij )) + k(H(qij , pij ) − H(pij )), (4-58) P Donde H(u, v) = i ui ln(vi ) y H(u) = H(u, u). Debido a la presencia de entropı́as cruzadas, se puede ver fácilmente que DkKLt1 (pij k qij ) rangos desde 0 hasta ∞. En general, NeRV optimiza un costo definido por el usuario que forma una compensación entre la precisión suavizada media y la recuperación suavizada media. Si establecemos k = 1 en la ecuación (4-58), obtenemos la función de costo de embebimiento estocásticos de vecinos [20]. Por lo tanto, obtenemos como resultado secundario una nueva interpretación de SNE como un método que maximiza la recuperación media suavizada. El algoritmo que se emplea en el NeRV es el mismo que se emplea en el SNE (4), con la diferencia de que se utilizan la ecuaciónes de la sección 4.3.2..

(38) 26. 4.3.3.. 4 Reducción de dimensión. Embebimiento de vecinos Jensen-Shannon (JSE). El JSE también es una variante del método SNE (Embebimiento Estocástico de vecinos), que ademas aplica una divergencia ”dual”KL (Kullback- Leibler), como en el NeRV (Visualizador de Recuperación de Vecinos), con la diferencia de que el JSE realiza una mezcla de divergencia tipo 2[24], la cual implica una distribución compuesta y también una mezcla no lineal de dos divergencias. Este segundo tipo de mezclas esta muy relacionado con la divergencia generalizada de Jensen-Shannon [25, 26], la cual también cumple el criterio de simetrı́a cuando ambos pesos son iguales a la mitad. Usando el criterio de preservación del vecindario K-vecinos, se puede observar experimentalmente que la mezcla tipo 2 supera tanto la mezcla de tipo 1 como la divergencia no combinada habitual.[6] Sea Ξ = [ξi ]1≤i≤N denotando una base de N puntos en un espacio dimensional M. Similar mente, Sea X = [xi ]1≤i≤N es su representación en un espacio dimensional P , con P ≤ N. Las distancias euclidianas entre los puntos i y j están dadas por δij = kξi − ξj k2 y dij = kxi − xj k2 en el espacio de alta y baja dimensión respectivamente. En JSE de igual manera al SNE y NeRV, sus similitudes asociadas con δij y dij están definidas por: i 6= j por: exp(−γij ) k,k6=i exp(−γik ). pij = P. y. exp(−gij ) , k,k6=i exp(−gik ). qij = P. (4-59). Donde γij = γ(δij /2σi2 ) y gij = g(dij ). Las funciones γ y g ambas son funciones no negativas con derivada no negativa. En JSE a diferencia del NeRV se utiliza otra forma para combinar 2 divergencias, esta es conocida como la generalización de la divergencia de Jense-Shannon y esta dada por:. K DJS (pi k qi ) = kDKL (pi k zi ) + (1 − k)kDKL (qi k zi ),. = H(zi ) − kH(pi ) − (1 − k)H(qi ),. (4-60). (4-61). K Donde zi = kpi +(1+k)qi y 0 ≤ k ≤ 1. Para K = 1/2, DJS (pi k qi ) es simétrica es simétrico y se conoce como la generalización simétrica tipo 2 de la divergencia KL [24]. Solo hay entropı́as y no hay entropı́as cruzadas en la divergencia de JS, que varı́a entre 0 y H([k, 1−k]T ).. La función de costo de JSE es entonces: X E(X; Ξ, σ, k) = DkKLt2 (pi k qi ). i. (4-62).

(39) 4.3 Embebimiento estocástico de vecinos (SNE). 27. Otra forma de escribirlo seria E(X; Ξ, σ, k) =. X i. H(. H(qi ; pi ) DKL (qi k pi ) pi )+ + . (1 − k) (1 − k) k. (4-63). De igual manera al SNE la derivada de el gradiente en el JSE sera igual a la ecuación (4-48), con la diferencia de que al minimizar 4-62, obtenemos los siguientes rendimientos:. wij =. qij zij (ln( ) + DKL (qi k zi )). k qij. (4-64). Usando l’Hôpital’s, el limite para que k tienda a cero es: wij = pij − qij , como se esperaba. g ′ (dij ) En JSE, DkKLt2 (pi k qi ) es usada en conjunto con g(u) = u2 /2. Por lo tanto, = 1. dij El algoritmo que se emplea en el JSE es el mismo que se emplea en el SNE (4), con la diferencia de que se utilizan la ecuaciónes de la sección 4.3.3..

(40) 5. Modelos básicos de clasificación 5.1.. Análisis Discriminante Lineal (LDA). El Análisis Discriminante Lineal (LDA) es una generalización del discriminante lineal de Fisher, un método utilizado en reconocimiento de patrones y aprendizaje de máquinas para encontrar una combinación lineal de rasgos que caracterizan o separan dos o más clases de objetos o eventos. En el cual se modela la distribución de los predictores X por separado en cada una de las clases de respuesta (es decir Y ), y luego usa el teorema de Bayes para convertirlos en estimaciones para Pr(Y = k | X = x). Cuando se asume que estas distribuciones son normales, resulta que el modelo es muy similar en forma a la regresión logı́stica.[27]. 5.1.1.. Teorema de Bayes para la clasificación. El teorema de Bayes busca clasificar una observación en una de las clases de k, dondek | 2. En otras palabras, la variable de respuesta cualitativa Y puede tomar k posibles valores distintos y desordenados. Donde πk es la probabilidad total o previa de que una observación elegida al azar provenga de la clase kn ; esta es la probabilidad de que una observación dada esté asociada con la categorı́a kn de la variable de respuesta Y . Donde, fk (x) es relativamente grande si existe una alta probabilidad de que una función en la clase kn tenga X ≈ x, y fk (x) sea pequeña si es muy improbable que una observación en la clase kn tenga X ≈ x. Entonces el teorema de Bayes establece que:. πk fk (x) pk (X) = Pr = (Y = k | X = x) = PK . l=1 πl fl (x). (5-1). En general, la estimación πk es fácil si tenemos una muestra aleatoria de Y s de la respuesta: simplemente calculamos la fracción de las observaciones de entrenamiento que pertenecen a la clase kn . Sin embargo, estimar fk (X) tiende a ser más complicado, a menos que asumamos algunas formas simples para estas densidades. Donde pk (x) es la probabilidad de que la observación pertenezca a la clase kn , dado el valor del predictor para esa observación.[27].

(41) 5.1 Análisis Discriminante Lineal (LDA). 5.1.2.. 29. Análisis Discriminate Lineal con p=1. Cuando se asume tener un solo predictor (p = 1). Se busca obtener una estimación para fk (X) la cual se incluye en la Ecu.(5-1), para estimar pk (x). Luego, clasificaremos una observación a la clase para la que pk (x) es mayor. Para estimarfk (X), se asume que fk (X) es normal o Gaussiana. En la configuración unidimensional, la densidad normal toma la siguiente forma: fk (x) = √. 1 1 exp(− 2 (x − µk )2 ), 2σk 2πσk. (5-2). Donde µk y σk2 son los parámetros de promedio y varianza para la clase kn . Se asume que la varianza es la misma para todas las clases de K (σ12 = .... = σk2 = σ 2 ). Remplazando la Ecu. (5-1) en (5-2), encontramos que: 1 πk √2πσ exp(− 2σ12 (x − µk )2 ) pk (x) = PK . 1 2 √1 l=1 πl 2πσ exp(− 2σ2 (x − µl ) ). (5-3). Donde, πk denota la probabilidad previa de que una observación pertenezca a la clase kn . El clasificador de Bayes implica asignar una observación X = x a la clase para la cual en la Ecu. (5-3), es la más grande. Tomando el registro de Ecu. (5-3), y reorganizando los términos, es equivalente a asignar la observación a la clase para la cual µk µ2k δk (x) = x 2 − 2 + log(πk ), σ 2σ. (5-4). es el mas grande. Por ejemplo, siK = 2 y π1 = π2 , entonces el clasificador de Bayes asigna una observación a la clase 1 si 2x(µ1 − µ2 ) > µ21 − µ22 , y a clase 2 de lo contrario. En este caso, el lı́mite de decisión de Bayes corresponde al punto donde: x=. (µ21 − µ22 ) (µ1 + µ2 ) = . 2(µ1 − µ2 ) 2. (5-5). En la práctica, independientemente que X se obtenga de una distribución gaussiana dentro de cada clase, se deben estimar los parámetros µ1 , ..., µk , π1 , ..., πK , y σ 2 . El método del análisis discriminante lineal (LDA) se aproxima al clasificador de Bayes al incluir estimaciones de πk , µk y σ 2 en la Ecu.(5-4). En particular, se utilizan las siguientes estimaciones: µˆk =. 1 X xi nk i:y =k. (5-6). i. K 1 X X (xi − µˆk )2 σ̂ = n − K k=1 i:y =k 2. i. (5-7).

(42) 30. 5 Modelos básicos de clasificación. donden es el número total de observaciones de entrenamiento, y nk es el número de observaciones de entrenamiento en la clase kn . La estimación para µˆk es simplemente el promedio de todas las observaciones de entrenamiento de la clase kn , mientras que σ̂ 2 puede verse como un promedio ponderado de las varianzas muestrales para cada una de las clases K. A veces tenemos conocimiento de las probabilidades de membresı́a de clase π1 , ..., πK , que puede ser utilizado directamente. En ausencia de cualquier información adicional, LDA estima πk utilizando la proporción de las observaciones de entrenamiento que pertenecen a la clase kn . En otras palabras. πˆk =. nk . n. (5-8). La palabra lineal en el nombre del clasificador se deriva del hecho de que las funciones discriminantes δk (x) en la Ecu.(5-4), son funciones lineales de x.[27]. 5.1.3.. Análisis Discriminate Lineal con p>1. Para utilizar LDA con múltiples predictores. Se asume que X = (X1 , X2 , ..., Xp ) se obtiene de una distribución multivariada gaussiana (o multivariable normal), con un vector de media especı́fica de clase y una matriz de covarianza común. Para indicar que una variable aleatoria X p-dimensional tiene una distribución Gaussiana multivariable, escribimos X ∼ N(µ, Σ). Aquı́ E(X) = µ es la media de X (un vector con componentes p), y Cov(X) = Σ es la matriz de covarianza p × p de X. Formalmente, la densidad gaussiana multivariable se define como: f (x) =. 1 (2π)p/2 |Σ|1/2. 1 exp(− (x − µ)T Σ −1 (x − µ)). 2. (5-9). En el caso de p > 1 predictores, el clasificador LDA asume que la observaciones en las clases kn se extraen de una distribución gaussiana multivariable N(µk , Σ), donde µk es el vector media de una clase especifica, y Σ es la matriz de covarianza la cual es común para todas las clases de K. Conectando la función de densidad para la clase kn , fk (X = x), en la Ecu.(5-1), y realizando un poco de álgebra revela que el clasificador de Bayes asigna una observación X = x para la clase por la cual 1 δk (x) = xT Σ −1 µk − µTk Σ −1 µk + log πk 2 es el mas grande. Esta es la versión vector / matriz de la Ecu. (5-4).[27]. (5-10).

(43) 5.2 Análisis Discriminate Cuadrático (QDA). 5.2.. 31. Análisis Discriminate Cuadrático (QDA). El análisis discriminante cuadrático (QDA) proporciona un enfoque alternativo. Donde al igual que LDA, el clasificador de QDA resulta de suponer que las observaciones de cada clase se extraen de una distribución gaussiana, y se insertan las estimaciones de los parámetros en el teorema de Bayes para realizar la predicción. Sin embargo, a diferencia de LDA, QDA asume que cada clase tiene su propia matriz de covarianza. Es decir, se supone que una observación de la clase kth es de la forma X ∼ N(µk , Σk ), donde Σk es una matriz de covarianza para la clase kn . Bajo este supuesto, el clasificador de Bayes asigna una observación X = x a la clase para la cual 1 δk (x)| = − (x − µk )T Σ −1 (x − µk ) + log πk 2. (5-11). 1 1 = − xT Σ −1 x + xT Σ −1 µk − µTk Σ −1 µk + log πk (5-12) 2 2 es el mas grande. Por lo tanto, el clasificador QDA implica insertar estimaciones para Σk , µk y πk en la Ecu.(5-12), y luego asignar una observaciónX = x a la clase para la cual esta cantidad es mayor. A diferencia de en la Ecu.(5-4), la cantidad x aparece como una función cuadrática en la Ecu.(5-12). Aquı́ es donde QDA obtiene su nombre.[27].

(44) 32. 5.3.. 5 Modelos básicos de clasificación. k-Vecinos más Cercanos(K-NN). El k-Vecinos más Cercanos (K-NN) es un método no-parametrico usado para la clasificación, este representa uno de los esquemas más utilizados para tareas de aprendizaje supervisadas.[28] El cual solo requiere poder definir una diferencia entre ds instancias dadas. La mayor parte de su popularidad proviene de su simplicidad conceptual y su implementación directa, que se desempeña sorprendentemente bien en muchas tareas de reconocimiento de patrones.[29] Ademas, El clasificador kNN no realiza un proceso de generalización explı́cito (es decir, construye un modelo) a partir de los datos de entrenamiento inicial, pero considera directamente esas muestras para la clasificación [30]. Por lo tanto, el clasificador mejora su rendimiento a medida que aumenta el conjunto de entrenamiento, habiéndose demostrado su consistencia a medida que el número de instancias de entrenamiento se aproxima al infinito.[31] Definamos P = { x1 , x2 , . . . , xn }, para ser un conjunto de los puntos de entrenamiento y Y = { y1 , y2, . . . , ym } para ser un conjunto de puntos de prueba. Evidentemente, P, Y ⊆ X, donde X es una es un conjunto de puntos de d -dimensiones de puntos de datos de valor real X ⊂ Rd . Denotamos un vector a de d -dimensiones, a ∈ Rd como [a(1) , a(2) , . . . , a(n) ]. Cada uno de los puntos de datos de X puede pertenecer a una de las etiquetas de clase c del conjunto L = {l1 , l2 , ..., lc }. Para un punto de entrenamiento xi ∈ P se conoce la etiqueta de clase cL (xi ), mientras que para un punto de prueba yj ∈ Y es predicho por el clasificador comoĉL (yj ), donde cL (xi ), ĉL (yj ) ∈ L. Deja el k -vecindario de un punto a , en un conjunto S se defina como Ωk (S, a). El número de elementos en un conjunto S se denote como |S|. La distancia entre los puntos a y b esta definida como δ(a, b) (Distancia Euclidiana). Un clasificador h(.) puede ser definido como hγ (P, yj ) dondeγ es un set de parámetros, Entonces ĉL (yj ) = hγ (P, yj ). Entonces, dado un conjunto de entrenamiento P y un conjunto de prueba yj ∈ Y , el clasificador k-NN asigna ĉL (yj ), una etiqueta de clase de acuerdo a la siguiente expresionismo. ĉL (yj ) = lr′ ;. ′. r = arg máx |{xi : xi ∈ Ωk (P, yj ) ∧ cL (xi = lr }|. r=1,2,...,c. (5-13). (5-14). Por lo tanto, el clasificador k-NN asigna un yj ∈ Y con la etiqueta de esa clase a la que pertenece la mayorı́a del conjunto de entrenamiento k vecinos de yj . Además, k-NN también supone que cada uno de los puntos de entrenamiento puede pertenecer a una sola clase, es decir, proporciona una etiqueta de clase única para el punto de prueba.[29].

(45) Parte III. Marco Experimental.

(46) 6. Bases de datos En aras de validar las estrategias de reducción de dimensionalidad estudiadas, se utilizara una base de datos sintética (Rollo Suizo) y dos bases de datos reales (Motor Imagery y Deserción estudiantil). A continuación se describen los detalles principales de cada una de ellas.. 6.1.. Rollo Suizo. Es un conjunto de datos sintético en 3D que contiene 800 muestras que comparten estructuras no lineales, generando un espacio de entrada con tamaño D = 3 y N = 800. En este caso, se busca insertar la variedad tridimensional en un espacio bidimensional. Aquı́, el desafı́o radica en dividir con precisión la variedad original, para que las principales estructuras de datos no lineales se den a conocer con el fin de visualizar las estructuras no lineales en un espacio de 2D claramente. Es por esto que, se realiza 3 etapas fundamentales las cuales son: Pre-procesamiento: En primera instancia, con el fin de ajustar los rangos de variación entre caracterı́sticas, se aplica una normalización zscore, en donde cada caracterı́stica se ajusta a media cero y desviación estándar igual a 1. Además, en aras de agrupar apropiadamente las estructuras no lineales del rollo suizo, se realiza un agrupamiento espectral sobre los datos en 3D utilizando el algoritmo de k-medias. En particular, se fija el número de grupos en 4, como se observa en la Figura 6-1. Reducción de Dimensión: En la segunda etapa, se utiliza las técnicas de reducción convencionales (PCA, KPCA y NMDS) y técnicas basadas en similitud (SNE, tSNE, NeRV y JSE), las cuales su rendimiento depende de la perplejidad. Con respecto a los parámetros de perplejidad en los algoritmos SNE, tSNE, NeRV y JSE, se utilizaron los valores encontrados a partir del valor de perplejidad más alto (N/2), donde N , es el tamaño del conjunto de datos. Para el rollo suizo N = 174 entonces N/2 = 87, obteniendo el intervalo [0 87] del cual se utiliza los valores del conjunto [5 16 28 40 51 63 75 87]. Como medida de evaluación de cada valor de perplejidad se utiliza la preservación de vecindarios por rango, definida como:   (N − 1)QN X (K) − K RNX (K) = para 1 ≤ K ≤ (N − 2) (6-1) N −1−K Donde, (QN X (K)) varia entre 0 y 1 y mide el promedio de concordancia normalizada entre los K-arreglo vecindarios correspondientes en los espacios de alta y baja dimensión..

(47) 6.2 Imaginación Motora desde señales de de electroencefalografı́a (MIDB). 35. Ası́ mismo, para un valor de cero para este criterio corresponde a una reducción aleatoria (QN X (K) ≈ K/(N-1)), mientras que 1 significa una concordancia perfecta de K-arreglo vecindarios (QN X (K) = 1) Clasificación: Por ultimo, en la clasificación se utilizo los modelos de clasificación Lineal (L), Cuadrático (Q) y K Vecinos mas próximos (KNN). En la clasificación se toma como medida estadı́stica una partición del 70 de entrenamiento y 30 de prueba y se repite 10 veces, donde se calcula la media aritmética obtenida de las medidas de evaluación en las diferentes particiones, obteniendo el acierto y desviación estándar de clasificación por cada modelo, con respecto al promedio de las 10 clasificaciones. Ademas, se realiza una validación cruzada para los métodos Lineal, Cuadrático y K vecinos mas próximos.. Agrupamiento espectral Característica 3. 2. C1. C3. C2. C4. 1 0 -1. íst. ter. rac. Ca -2 2. ica. 0. 2. -2. -2. -1. 0. 1. 2. Característica 1 Figura 6-1.: Rollo Suizo supervisado en 3D.. 6.2.. Imaginación Motora desde señales de de electroencefalografı́a (MIDB). Es un conjunto de datos reales de Imaginación Motora (MIDB), la cual consiste en imaginar que el cuerpo realiza un movimiento sin llegar a ejecutarlo. En aspectos muy generales, la mera intención de realizar el movimiento parece activar áreas cerebrales comunes con las que se activan cuando se ejecuta realmente, y la repetición de esta tarea ayuda, entre otras cosas, a mejorar el control del cuerpo. Esta base de datos se experimenta amplia mente en tareas de Imaginación Motora la cual contiene señales de electroencefalografı́a (EEG) grabadas en 59 canales de ocho sujetos..

Figure

Tabla 7-1.: Rendimiento promedio de RD con diferentes valores de perplejidad para el ROL.

Tabla 7-1.:

Rendimiento promedio de RD con diferentes valores de perplejidad para el ROL. p.52
Figura 7-1.: Espacios reducidos en dos dimensiones encontrados para el ROL.

Figura 7-1.:

Espacios reducidos en dos dimensiones encontrados para el ROL. p.53
Figura 7-2.: Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-1).

Figura 7-2.:

Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-1). p.54
Figura 7-3.: Resultados de t´ecnicas de discriminaci´on en el espacio original del ROL.

Figura 7-3.:

Resultados de t´ecnicas de discriminaci´on en el espacio original del ROL. p.56
Figura 7-4.: Resultados de la mejor clasificaci´on en los espacios reducidos del ROL.

Figura 7-4.:

Resultados de la mejor clasificaci´on en los espacios reducidos del ROL. p.57
Figura 7-5.: Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-4.

Figura 7-5.:

Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-4. p.58
Tabla 7-3.: Rendimiento promedio de RD con diferentes valores de perplejidad para el sujeto S08.

Tabla 7-3.:

Rendimiento promedio de RD con diferentes valores de perplejidad para el sujeto S08. p.59
Figura 7-6.: Espacios reducidos en dos dimensiones encontrados para el sujeto S08.

Figura 7-6.:

Espacios reducidos en dos dimensiones encontrados para el sujeto S08. p.60
Figura 7-7.: Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-6).

Figura 7-7.:

Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-6). p.61
Figura 7-8.: Resultados de t´ecnicas de discriminaci´on en el espacio original del sujeto S08.

Figura 7-8.:

Resultados de t´ecnicas de discriminaci´on en el espacio original del sujeto S08. p.63
Figura 7-9.: Resultados de la mejor clasificaci´on en los espacios reducidos del sujeto S08.

Figura 7-9.:

Resultados de la mejor clasificaci´on en los espacios reducidos del sujeto S08. p.64
Figura 7-10.: Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-9.

Figura 7-10.:

Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-9. p.65
Tabla 7-5.: Rendimiento promedio de RD con diferentes valores de perplejidad para el sujeto S02.

Tabla 7-5.:

Rendimiento promedio de RD con diferentes valores de perplejidad para el sujeto S02. p.66
Figura 7-11.: Espacios reducidos en dos dimensiones encontrados para el sujeto S02.

Figura 7-11.:

Espacios reducidos en dos dimensiones encontrados para el sujeto S02. p.67
Figura 7-12.: Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-11).

Figura 7-12.:

Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-11). p.68
Figura 7-13.: Resultados de t´ecnicas de discriminaci´on en el espacio original del sujeto S02.

Figura 7-13.:

Resultados de t´ecnicas de discriminaci´on en el espacio original del sujeto S02. p.70
Figura 7-14.: Resultados de la mejor clasificaci´on en los espacios reducidos del sujeto S02.

Figura 7-14.:

Resultados de la mejor clasificaci´on en los espacios reducidos del sujeto S02. p.71
Figura 7-15.: Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-14.

Figura 7-15.:

Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-14. p.72
Tabla 7-7.: Rendimiento promedio de RD con diferentes valores de perplejidad para UTP- UTP-SPC.

Tabla 7-7.:

Rendimiento promedio de RD con diferentes valores de perplejidad para UTP- UTP-SPC. p.73
Figura 7-16.: Espacios reducidos en dos dimensiones encontrados para UTP-SPC.

Figura 7-16.:

Espacios reducidos en dos dimensiones encontrados para UTP-SPC. p.74
Figura 7-17.: Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-16).

Figura 7-17.:

Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-16). p.75
Figura 7-18.: Resultados de t´ecnicas de discriminaci´on en el espacio original de la UTP- UTP-SPC.

Figura 7-18.:

Resultados de t´ecnicas de discriminaci´on en el espacio original de la UTP- UTP-SPC. p.77
Figura 7-19.: Resultados de la mejor clasificaci´on en los espacios reducidos de la UTP-SPC.

Figura 7-19.:

Resultados de la mejor clasificaci´on en los espacios reducidos de la UTP-SPC. p.79
Figura 7-20.: Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-19.

Figura 7-20.:

Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-19. p.80
Tabla 7-9.: Rendimiento promedio de RD con diferentes valores de perplejidad para DS- DS-UTP-CPC.

Tabla 7-9.:

Rendimiento promedio de RD con diferentes valores de perplejidad para DS- DS-UTP-CPC. p.81
Figura 7-21.: Espacios reducidos en dos dimensiones encontrados para UTP-CPC.

Figura 7-21.:

Espacios reducidos en dos dimensiones encontrados para UTP-CPC. p.82
Figura 7-22.: Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-21).

Figura 7-22.:

Preservaci´on de informaci´on en los espacios reducidos de (Figura 7-21). p.83
Figura 7-23.: Resultados de t´ecnicas de discriminaci´on en el espacio original de la UTP- UTP-CPC.

Figura 7-23.:

Resultados de t´ecnicas de discriminaci´on en el espacio original de la UTP- UTP-CPC. p.85
Figura 7-24.: Resultados de la mejor clasificaci´on en los espacios reducidos de la UTP-CPC.

Figura 7-24.:

Resultados de la mejor clasificaci´on en los espacios reducidos de la UTP-CPC. p.86
Figura 7-25.: Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-24.

Figura 7-25.:

Diagramas de sensibilidad correspondiente a cada matriz de confusi´on en la Figura 7-24. p.87

References