Análisis comparativo de métodos de clasificación

Texto completo

(1)ANÁLISIS COMPARATIVO DE MÉTODOS DE CLASIFICACIÓN. MÓNICA PATRICIA JARAMILLO STEVENS ADRIANA MARCUCCI BUSTOS. UNIVERSIDAD DE LOS ANDES DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Y ELECTRÓNICA. BOGOTÁ D.C. 2004.

(2) ANÁLISIS COMPARATIVO DE MÉTODOS DE CLASIFICACIÓN. MÓNICA PATRICIA JARAMILLO STEVENS. Código: 199911236 ADRIANA MARCUCCI BUSTOS. Código: 199913260. Trabajo de Grado presentado como Requisito para optar por el Título de Ingeniero Electrónico. Asesor: Alain Gauthier Sellier PhD. Coasesor: Claudia Victoria Isaza. UNIVERSIDAD DE LOS ANDES DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Y ELECTRÓNICA. BOGOTÁ D.C. 2004.

(3) Gracias a nuestras familias Gracias a Claudia y Alain por su dedicación Gracias a Juan Fernando y a todos aquellos que estuvieron con nosotras.

(4) IEL2-I-04-17 IEL2-I-04-19. TABLA DE CONTENIDO Página 1. INTRODUCCIÓN …………………………………………………………………………........... 1 2. GENERALIDADES DE CLASIFICACIÓN ……………………………………………….......... 2.1. DEFINICIÓN ……………………………………………………………………………….. 2.2. TIPOS DE CLASIFICACIÓN ………………………………………………………............ 2.3. DIVISIÓN DE LOS MÉTODOS DE CLASIFICACIÓN …………………………….......... 2.4. ÁREAS DE APLICACIÓN …………………………………………………………............. 2 2 3 3 4. 3. MÉTODOS ESTADÍSTICOS DE CLASIFICACIÓN ………………………………………….. 5 3.1. DISCRIMINANTE LINEAL ……………………………………………………………….. 3.1.1. Fisher ……………………………………………………………………………….. 3.1.1.1. Fisher para dos clases ……………………………………………………… 3.1.1.2. Fisher para múltiples clases ……………………………………………….. 3.2. VECINO MÁS PRÓXIMO …………………………………………………………………. 3.3. K-VECINOS ……………………………………………….………………………………... 6 6 7 8 9 9. 4. ÁRBOLES DE DECISIÓN ………………………………………………………………............ 10 4.1. CARACTERÍSTICAS DEL CONJUNTO DE PREGUNTAS ……………………….......... 10 5. MÉTODOS DE AGRUPAMIENTO …………………………………………………………….. 11 5.1. DETERMINISTICO ………………………………………………………………………... 5.1.1. K-means o C-means no difuso …………………………………………………….... 5.1.2. H-means y HK-means ………………………………………………………………. 5.1.3. Método de la Montaña ……………………………………………………………… 5.2. DIFUSO ……………………………………………….……………………………………. 5.2.1. C-means …………………………………………………………………………….. 5.2.2. Gustafson-Kessel Means ……………………………………………………………. 5.2.3. LAMDA …………………………………………………………………………….. 5.2.3.1. Cálculo del MAD con atributos cuantitativos ………………………………..... 5.2.3.2. Cálculo del MAD con atributos cualitativos …………………………………... 5.2.3.3. Cálculo del GAD ………………………………………………………………. 5.2.3.4. Clasificación de los datos ………………………………………………………. 11 11 12 12 14 14 16 17 18 18 19 19. 6. REDES NEURONALES ………………………………………………………………………… 20 6.1. 6.2. 6.3. 6.4.. MODELO DE UNA NEURONA …………………………………………………………... FUNCIONAMIENTO DE UNA NEURONA ……………………………………………… PARÁMETROS PARA EL DISEÑO DE UNA RED NEURONAL ARTIFICIAL ………. APRENDIZAJE DE UNA RED NEURONAL ARTIFICIAL …………………………….. iv. 20 21 21 22.

(5) IEL2-I-04-17 IEL2-I-04-19 6.4.1. Redes de una capa ………………………………………………………………….. 6.4.1.1. Algoritmo de error mínimo cuadrado (LMS) ………………………………….. 6.4.1.2. Algoritmo del perceptrón ……………………………………………………… 6.4.1.3. Algoritmo del perceptrón con Bolsillo ………………………………………… 6.4.2. Redes de varias capas ………………………………………………………………. 6.4.2.1. Algoritmo del perceptrón multinivel …………………………………………... 6.4.2.2. Backpropagation ………………………………………………………………... 22 22 23 23 23 24 24. 7. ALGORITMOS A EVALUAR Y JUSTIFICACIÓN DE LA ELECCIÓN ……………………... 26 7.1. MÉTODOS ESTADÍSTICOS ……………………………………………………………… 26 7.2. MÉTODOS DE AGRUPAMIENTO ………………………………………………………. 26 7.3. REDES NEURONALES …………………………………………………………………… 26 8. SOFTWARE DESARROLLADO ………………………………………………………………. 27 8.1. FORMA DE INSTALACIÓN ……………………………………………………………… 27 8.2. INTERFAZ CON EL USUARIO ………………………………………………………….. 27 9. RESULTADOS ………………………………………………………………………………….. 31 9.1. BASE DE DATOS NUBES ………………………………………………………………… 9.1.1. Características de la base de datos ………………………………………………….. 9.1.2. Resultados con Fisher ………………………………………………………………. 9.1.3. Resultados con K-vecinos ………………………………………………………….. 9.1.4. Resultados con el Método de la Montaña ………………………………………….. 9.1.5. Resultados con C-means …………………………………………………………… 9.1.6. Resultados con Gustafson Kessel means …………………………………………… 9.1.7. Resultados con LAMDA …………………………………………………………… 9.1.8. Resultados con Redes Neuronales Artificiales (RNA) …………………………….. 9.1.9. Comparación de resultados con los diferentes métodos de clasificación …………... 31 31 32 32 32 34 34 35 35 38. 9.2. BASE DE DATOS IRIS ……………………………………………………………………. 9.2.1. Características de la base de datos …………………………………………………. 9.2.2. Resultados con Fisher ………………………………………………………………. 9.2.3. Resultados con K-vecinos ………………………………………………………….. 9.2.4. Resultados con el Método de la Montaña ………………………………………….. 9.2.5. Resultados con C-means ……………………………………………………………. 9.2.6. Resultados con Gustafson Kessel means …………………………………………… 9.2.7. Resultados con LAMDA …………………………………………………………… 9.2.8. Resultados con Redes Neuronales Artificiales (RNA) …………………………….. 9.2.9. Comparación de resultados con los diferentes métodos de clasificación …………... 38 38 39 39 40 41 41 42 42 44. 9.3. DIAGNÓSTICO DE DIABETES ………………………………………………………….. 45 9.3.1. Características de la base de datos …………………………………………………. 45 v.

(6) IEL2-I-04-17 IEL2-I-04-19 9.3.2. 9.3.3. 9.3.4. 9.3.5. 9.3.6. 9.3.7. 9.3.8. 9.3.9.. Resultados con Fisher ………………………………………………………………. Resultados con K-vecinos ………………………………………………………….. Resultados con el Método de la Montaña ………………………………………….. Resultados con C-means …………………………………………………………… Resultados con Gustafson Kessel means …………………………………………… Resultados con LAMDA …………………………………………………………… Resultados con Redes Neuronales Artificiales (RNA) …………………………….. Comparación de resultados con los diferentes métodos de clasificación …………... 45 45 45 45 46 46 46 48. 9.4. DIAGNÓSTICO DE FALLAS SISTEMA DE TANQUES ACOPLADOS ……………… 9.4.1. Descripción del Sistema ……………………………………………………………. 9.4.2. Datos utilizados para el diagnostico ……………………………………………….. 9.4.3. Preprocesamiento de los datos ……………………………………………………… 9.4.4. Resultados con C-means …………………………………………………………… 9.4.5. Resultados con Gustafson Kessel means …………………………………………… 9.4.6. Resultados con LAMDA …………………………………………………………… 9.4.7. Comparación de resultados con los diferentes métodos de clasificación …………... 49 49 50 51 52 52 52 53. 10. ANÁLISIS DEL DESEMPEÑO DE LOS MÉTODOS DE CLASIFICACIÓN ………….... 55 10.1.ANÁLISIS DEL TIEMPO DE EJECUCIÓN ……………………………………………. 10.1.1. Fisher ……………………………………………………………………………….. 10.1.2. K-vecinos …………………………………………………………………………… 10.1.3. Método de la Montaña ……………………………………………………………… 10.1.4. C-means y Gustafson Kessel means ……………………………………………….. 10.1.5. Redes Neuronales Artificiales (RNA) ………………………………………………. 55 55 55 55 56 56. 10.2.COMPARACIÓN DE CARACTERÍSTICAS DE LOS MÉTODOS CON BASE AL SOFTWARE DESARROLLADO …………………………………………………………. 57. 11. CONCLUSIONES ……………………………………………………………………………… 58 APÉNDICE A: ALGUNOS CONCEPTOS PREVIOS ……………………………………………… 61. REFERENCIAS BIBLIOGRÁFICAS ……………………………………………………………… 62. vi.

(7) IEL2-I-04-17 IEL2-I-04-19 1. INTRODUCCIÓN. El problema de clasificación se basa en agrupar y discriminar objetos, descritos mediante un vector de atributos, ya sea construyendo las clases o asignando los objetos a clases previamente definidas. La clasificación de sistemas tiene un amplio rango de aplicaciones, entre las que se encuentran: diagnóstico médico y psicológico [9], aplicaciones en economía [3], supervisión y diagnóstico de fallas en sistemas automáticos complejos [7] y modelaje de sistemas no lineales [2], entre otros. Dentro de las técnicas de clasificación son reconocidos métodos estadísticos como Discriminante Lineal, K-Vecinos y el Método de la Montaña los cuales asignan una sola clase a cada individuo; Métodos difusos como, Fuzzy C-Means (FCM) y Gustafson-Kessel Means (GKMeans), que asocian a cada individuo un grado de pertenencia a cada una de las clases; las Redes Neuronales Artificiales (RNA), las cuales permiten hacer una partición del espacio de datos; y LAMDA (Learning Algorithm for Multivariate Data Análisis) el cual se basa en determinar el grado de adecuación de un individuo a las diferentes clases. En primer lugar se hace una presentación de los fundamentos de los diferentes métodos de clasificación, posteriormente se hace una selección de los algoritmos a evaluar, los cuales fueron implementados computacionalmente y por último se hace una evaluación y comparación de los diferentes algoritmos mediante cuatro aplicaciones diferentes cuya diferencia radica en la separabilidad de los datos, la interpretación de los resultados obtenidos, los métodos que se pueden aplicar, el número de atributos, el número de individuos y el número de clases, permitiendo un análisis del desempeño de los algoritmos de clasificación en un escenario bastante amplio. Con respecto a las aplicaciones trabajadas, la primera de ellas es Nubes, que es una base de datos generada con una función de densidad de probabilidad cuyas características, dos clases completamente separables entre si e individuos con solo dos atributos, hacen que sea considerada un caso de estudio simple. La segunda aplicación es Iris, cuyos individuos son tipos de flores y presenta una mayor complejidad que la anterior base de datos, debido al incremento en el número de atributos y clases. La tercera aplicación es Diagnóstico de diabetes, que es una base de datos con características de mujeres sanas y con diabetes, en la que se tienen muchos atributos y clases poco separables. La última aplicación es el Diagnóstico de fallas en un sistema de tanques acoplados de la Universidad de los Andes, la cual tiene un enfoque diferente a las anteriores, ya que implica clasificación no supervisada. El objetivo principal de este proyecto es establecer, a partir de la evaluación realizada a los algoritmos, algunos lineamientos para la elección del método de clasificación apropiado según el problema a abordar.. 1.

(8) IEL2-I-04-17 IEL2-I-04-19 2. GENERALIDADES DE CLASIFICACIÓN 2.1.. DEFINICIÓN. El término clasificación se puede aplicar a múltiples actividades de la vida humana, se usa en muchas áreas del conocimiento como biología (genética), astronomía, ingeniería, control, economía, medicina y robótica. De forma general la clasificación se puede utilizar en cualquier contexto en el que se toma una decisión, se hace alguna predicción o un diagnóstico, basándose en información disponible en el momento [3]. Para establecer una definición a profundidad de la clasificación es necesario introducir el concepto de clase. Una clase representa un grupo de objetos con una característica común [15]. Las características que se usan para describir los objetos, conocidas como atributos, pueden ser cuantitativas o cualitativas. Los individuos pueden tener solo atributos cualitativos, solo cuantitativos o una mezcla de los dos. Algunos parámetros empleados para caracterizar una clase son: • Mutua exclusión: Si las clases son mutuamente excluyentes un elemento puede pertenecer únicamente a una de ellas. En el caso contrario, el mismo elemento puede pertenecer de forma simultánea a varias clases. Las clases pueden ser mutuamente excluyentes o no serlo. • Exhaustividad: Cuando se habla de un conjunto de clases exhaustivo se hace referencia a que la unión de todas las clases conforma el espacio de decisión, es decir, no existe ninguna parte del espacio que no pertenezca a una clase. El conjunto de clases puede ser exhaustivo o no serlo. El problema de clasificación consiste en asignar un conjunto de individuos a distintas clases. Formalmente, sea X = {x1,..., xm } un conjunto con m vectores en un espacio n-dimensional real ℜ n , que pueden verse. geométricamente como puntos en ℜn , y sea Ω = {ω1 ,..., ω c } un conjunto con c clases, tal que 2 ≤ c < m . Un clasificador es cualquier mapeo de la forma [15]: F : ℜn → Ω. (1). Este mapeo se lleva a cabo teniendo en cuenta una semejanza entre los datos, es decir, alguna característica como la distancia, la conectividad o la intensidad. Se busca que cada clase tenga objetos que sean similares entre sí e individuos de clases distintas deben ser “no similares”. El criterio utilizado es, generalmente, la optimización de una función objetivo relacionada con las semejanzas entre los datos que sirve como índice del desempeño de la clasificación. Aunque también se debe tener en cuenta que el clasificador obtenido debe clasificar apropiadamente datos diferentes a los que se emplearon para generarlo, siempre que éstos provengan de la misma distribución.. 2.

(9) IEL2-I-04-17 IEL2-I-04-19 2.2.. TIPOS DE CLASIFICACIÓN. El problema de clasificación puede dividirse en dos tipos: Clasificación supervisada: En este tipo de clasificación se cuentan con clases previamente definidas y el objetivo es establecer unas reglas para asignar a los individuos a una de esas clases. Para poder generar las reglas de clasificación se debe tener un conjunto de objetos cuya clase se conoce a priori, llamado conjunto de entrenamiento. Para validar las reglas generadas, éstas se prueban en unos datos distintos a los del conjunto de entrenamiento. Este otro grupo de datos es conocido como conjunto de prueba y tiene una distribución estadística igual a la del conjunto de entrenamiento. Clasificación no supervisada: En este tipo de clasificación no se establecen previamente las clases sino que se determinan a partir de los datos con los que se cuenta. Lo que se busca es agrupar a los individuos que tengan la mayor similitud entre sí.. 2.3.. DIVISIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Se considera que los métodos de clasificación pueden dividirse en cuatro grupos según el procedimiento que se lleve a cabo. El primero de los grupos son los métodos estadísticos, en los que la clasificación se realiza teniendo en cuenta características estadísticas de los datos, tales como media, mediana, funciones de densidad de probabilidad, entre otras. El segundo grupo son los árboles de decisión, en los que la clasificación se realiza mediante una serie de preguntas sobre los atributos de los individuos. El tercer grupo son los métodos de agrupamiento, en los cuales se busca generar centros de clases, ya sea de forma determinística o difusa, y agrupar los datos alrededor de dichos centroides. Por último se tiene el grupo de las redes neuronales que es una imitación del funcionamiento de las neuronas en el cerebro humano. A continuación se listan algunos de los algoritmos más sobresalientes de cada uno de los anteriores grupos: 1. Estadísticos a. Fisher b. Vecino más próximo c. K-vecinos 2. Árboles de decisión 3. Métodos de agrupamiento a. Determinísticos i. K-means, también conocido como c-means no difuso ii. H-means iii. HK-means iv. Método de la montaña b. Difusos i. C-means ii. Gustafson-Kessel means iii. LAMDA 4. Redes neuronales a. Algoritmo de Error Mínimo Cuadrado (LMS) 3.

(10) IEL2-I-04-17 IEL2-I-04-19 b. Perceptrón c. Perceptrón con Bolsillo d. Backpropagation. 2.4.. ÁREAS DE APLICACIÓN. Una de cualidades sobresalientes de las técnicas de clasificación es la diversidad de áreas en las que pueden utilizarse, desde ingeniería [2], medicina [9], hasta predicciones económicas [3]. Con base en la división propuesta por Michie, Spiegelhalter y Taylor en su libro Machine Learning, Neural and Statistical Classification [16] se considera la siguiente división de los tipos de problema para los que es aplicable la clasificación: 1. Decisiones de tipo económico, tales como, evaluación de solicitudes de crédito, clasificación de empresas en cuanto a su rentabilidad, compra y venta de acciones, toma de decisiones sobre la intervención o no de instituciones financieras, entre otros. 2. Reconocimiento de imágenes. Se busca identificar el objeto del que proviene una imagen a partir de una serie de atributos cualitativos o cuantitativos, como patrones de luz, reconocimiento de bordes, entre otros. De esta forma se pueden clasificar imágenes enteras o segmentadas. Estas técnicas son aplicadas a reconocimiento de caracteres, silueta de vehículos, imágenes con baja resolución, manuscritos, entre otros. [4] 3. Diagnóstico Médico. Cada enfermedad está asociada a una sintomatología particular, por eso algunas enfermedades pueden detectarse mediante una serie de síntomas y características del paciente. 4. Otro tipo de problemas, tales como, predicción de fallas de máquinas [7], determinación del nivel de calidad de la vivienda y control de calidad (productos defectuosos y no defectuosos).. 4.

(11) IEL2-I-04-17 IEL2-I-04-19 3. MÉTODOS ESTADÍSTICOS DE CLASIFICACIÓN Los métodos estadísticos son métodos de clasificación supervisada en los cuales se busca asignar un individuo con n atributos a una de las c clases {ω1 ,..., ω c } . En la mayoría de los casos esto se hace definiendo fronteras de decisión en el espacio ℜn que separen objetos de distintas clases según la distribución de probabilidad de los objetos de cada una. Para generar dichas fronteras de decisión cada individuo debe tener dos tipos de variables: 1) Atributos: Son las variables independientes que describen cada uno de los objetos. Deben ser de tipo cuantitativo, pues de lo contrario debe realizarse un procedimiento previo para convertirlos a cuantitativos. 2) Clase: Es la variable que depende de los atributos cuya función es indicar la pertenencia de un individuo a un grupo. La clasificación estadística se realiza a partir de la suposición de que los atributos tienen una distribución de probabilidad que depende de la clase del individuo. Es decir, un individuo x de la clase. ω i es una observación. aleatoria de la función de probabilidad p( x | ω i ) [13]. Las clases pueden ser generadas a partir de varias reglas de decisión, entre las que sobresalen [4]: 1) Mínima distancia. Calcula la distancia euclidiana entre el vector de medias del individuo y el vector de medias de cada clase y asigna al individuo a la clase con la que se obtuvo menor distancia. 2) Distancia de Mahalanobis: Calcula la distancia de Mahalanobis entre el vector de medias del individuo y el vector de medias de cada clase y asigna al individuo a la clase con la que se obtuvo menor distancia. 3) Decisión de máxima probabilidad: También es conocida como regla de decisión Bayesiana. Se basa en que la probabilidad a posteriori de que un individuo x pertenezca a la clase ω i está dada por: P (ω i / x) =. f ( x / ω i ) P( x ∈ ω i ) f ( x / ω i )π i = N f ( x) ∑ π j f (x / ωi ). (2). j =1. Donde π i representa la probabilidad a priori de que un individuo pertenezca a la clase. ωi ,. f (x / ωi ). representa la función de densidad (condicional) de x en la clase ω i y f (x) es la función de densidad de x. La regla se basa entonces en el cálculo de una distancia ponderada dada por: d = ln(a c ) − 0.5 ln(cov c ) − 0.5( x − µ c ) T (cov c ) −1 ( x − µ c ). (3). Donde ac es la probabilidad con que un individuo pertenece a la clase ω c , µ c es la media de la clase ω c y cov c es la matriz de covarianza de la clase ω c .. A continuación se exponen algunos algoritmos estadísticos que emplean las reglas antes mencionadas: discriminante lineal, k-vecinos y vecino más próximo.. 5.

(12) IEL2-I-04-17 IEL2-I-04-19 3.1.. DISCRIMINANTE LINEAL. El análisis discriminante es una de las técnicas de clasificación más antiguas y la que más se emplea en programas estadísticos. La mayoría de los métodos de análisis discriminante se basan en los siguientes supuestos: 1. Normalidad: Se asume que las poblaciones a partir de las cuales se obtienen las muestras tienen una distribución normal. 2. Homogeneidad: Las matrices de covarianza de las poblaciones deben ser iguales entre sí. Estos supuestos se adecuan bastante bien a la realidad para poblaciones lo suficientemente grandes. Por consiguiente, para poblaciones pequeñas este método no es muy confiable. La idea principal del análisis discriminante es dividir el espacio muestral con rectas en dos dimensiones, planos en el caso de tres dimensiones y, en general, hiperplanos de n dimensiones. Para cada individuo. x = {a1 , a 2 ,..., a n } la recta, el plano o hiperplano será una combinación lineal de sus atributos, determinada por: y ( x ) =b T x + b 0. (4). Esta es la función discriminante lineal que contiene un vector de pesos b y un vector de bias b0 . En el caso de un espacio bidimensional la recta que divide dos clases se define de tal forma que corte por la mitad la línea que une los centros de las clases. El mejor discrimínate es aquel que permite maximizar: Varianza de y(x) entre diferentes clases Varianza de y(x) dentro de una misma clase. (5). Esta maximización garantiza la mínima variación entre los datos de la misma clase y la máxima variación entre datos de distintas clases [17]. Uno de los métodos más sobresalientes del análisis discriminante es el método de Fisher que se presenta a continuación. 3.1.1.. Fisher [14]. La idea del algoritmo de Fisher es hacer una transformación del vector de atributos x, de dimensión n, a una representación y unidimensional, tal que las variables y, provenientes de individuos de clases diferentes estén lo más alejadas posible. Esta transformación es una combinación lineal de los n atributos del vector x de la forma: y ( x) =bT x. (6). Una de las características más importantes de este algoritmo es que no supone normalidad en los datos, aunque si homogeneidad.. 6.

(13) IEL2-I-04-17 IEL2-I-04-19 3.1.1.1. Fisher para dos clases Para cada una de las clases se define: xi : Conjunto de los ni individuos con n atributos de la clase ω i , con media xi (vector de dimensión n). y i = { y i1 , y i 2 ,..., y ini } : Conjunto de las ni variables resultantes de las combinaciones lineales de los individuos de xi . Se define un discriminante lineal como el presentado en la Ecuación (6) en el que cada xi tiene: (1) Valor esperado: E ( yi ) = yi = bT E ( x | ωi ) = bT xi. (7). (2) Estimación agrupada de la varianza. ∑ (y1k n1. s 2y. =. k =1. ). − y1 2 +. ∑ (y 2 k n2. k =1. ). − y2 2. (8). n1 + n2 − 2. El objetivo es obtener los coeficientes b j de la combinación lineal que maximicen la separación entre y1 y y2 , dada por: y1 − y2 sy. =. bT x1 −bT x2 sy. (9). Al maximizar este cociente se obtiene: −1 bT = (x1 − x2 )T S agrupada. (10). Donde S agrupada es una combinación de las matrices de covarianza de las dos clases y está dada por:     n1−1 n 2 −1 S agrupada =   S1 +   S2  (n1−1) + (n 2 −1)   (n1−1) + (n 2 −1) . (11). Una vez generados los discriminantes de la forma: −1 y ( x) =bT x = (x1 − x2 )T Sagrupada ⋅x. (12). Se pueden clasificar nuevas observaciones de la siguiente manera: (a) Se clasifica la observación xo en ω1 si: −1 y ( x0 ) = ( x1 − x 2 ) S agrupada x0 ≥ T. 1 −1 (x1 − x2 )T S agrupada (x1 + x2 ) 2. 7. (13).

(14) IEL2-I-04-17 IEL2-I-04-19 Se clasifica la observación xo en ω 2 si:. (b). y ( x0 ) <. 1 −1 (x1 − x2 )T S agrupada (x1 + x2 ) 2. (14). 3.1.1.2. Fisher para múltiples clases Corresponde a la generalización del algoritmo de Fisher para dos clases. En el que se define: xi : Conjunto de los ni individuos con n atributos de la clase ω i , con media xi (vector de dimensión n). y i = { y i1 , y i 2 ,..., y ini } : Conjunto de las ni variables resultantes de las combinaciones lineales de los individuos de xi . x:. Vector de dimensión n que tiene en la i-ésima posición la media, sobre todos los N datos, del atributo i. c. B = ∑ ni (xi − x )(xi − x )T : Matriz de muestras inter grupos. i =1. c. c ni. i =1. i =1 j =1. W = ∑ (ni − 1)Si = (n1 + n2 + ... + nc )Sagrupada = ∑. ∑ (xij − xi )(xij − xi )T : Matriz de muestras intra grupos.. Se definen discriminantes lineales como los de la ecuación (6), en el que para cada xi , se define: 1) Valor esperado: E ( y i ) = y i = b T E ( x | ω i ) = b T xi. (15). s 2y = Var ( y ) = bT Cov ( x)b. (16). 2) Varianza:. El objetivo es obtener los coeficientes b j para cada discriminante que maximicen la separación entre los y i , dada por: c. ∑ ( yi − y )2. i =1. sY2. c. ∑ (axi − ax )2. = i =1. (17). sY2. Al maximizar este cociente se obtiene que los bT son los valores propios de la matriz W −1B escalados de tal forma que bT S agrupada b = 1 Una vez generados los discriminantes, y ( x) =bT x se pueden clasificar nuevas observaciones de la siguiente manera: Se clasifica la observación x en ω k si:. ∑ (y j − y kj )2 = ∑ b Tj (x − x k )2 ≤ ∑ b Tj (x − xi )2 , para todo n. n. n. j =1. j =1. j =1. 8. i≠k. (18).

(15) IEL2-I-04-17 IEL2-I-04-19 3.2.. VECINO MÁS PRÓXIMO [16]. Es un método estadístico de discriminación en el que no se requiere hacer suposiciones a cerca de la distribución de los datos. El algoritmo se basa en la idea de que puntos en el espacio ℜ n , que representan a los individuos, se encuentran poco distanciados cuando pertenecen a la misma clase. De esta forma, la idea es clasificar nuevos datos teniendo en cuenta, solamente, la clase del individuo que se encuentra a una menor distancia del nuevo objeto. El algoritmo se puede resumir en tres pasos: (1) Se busca el individuo más cercano al nuevo objeto. (2) Se mira la clase de ese individuo. (3) La clase de ese individuo es la que se asigna a la nueva observación. 3.3.. K-VECINOS ("K NEAREST NEIGHBOR") [1, 16]. Este método fue propuesto por Fix y Hodges en el año de 1951 y puede verse como una generalización del método del vecino más próximo y al igual que éste, tampoco hace suposiciones acerca de la distribución de probabilidad de los atributos de los individuos. El algoritmo se fundamenta en el hecho de que puntos en el espacio ℜn , que representan a los individuos de la misma clase se encuentran poco distanciados. Por consiguiente, si se eligen los k individuos más cercanos al nuevo objeto, la clase a la que éste pertenecerá será la más recurrente dentro de esos k individuos. Los k individuos más cercanos a un objeto son conocidos como sus k vecinos y pueden determinarse calculando, por cualquier método, las k menores distancias entre todos los individuos y la nueva observación. (En el apéndice A pueden encontrar distintas formas de calcular distancias) El algoritmo se puede resumir en tres pasos: (1) Se buscan los k individuos más cercanos al nuevo objeto. Usualmente k es un número impar, 1 ó 3. (2) Se busca la clase ( ω i ) más recurrente entre las clases de los k vecinos. Cuando haya varías clases que se repiten igual número de veces la clase, ω i , se elige al azar entre ellas. (3) La clase ω i es la que se asigna a la nueva observación.. 9.

(16) IEL2-I-04-17 IEL2-I-04-19 4. ÁRBOLES DE DECISIÓN [1] En los árboles de decisión la clasificación se realiza a partir de una secuencia de preguntas en la cual la siguiente pregunta depende de la respuesta actual. La clasificación se hace desde la raíz hacia las hojas. En cada nodo se evalúa un atributo y se baja por la rama asociada al valor de la instancia. El proceso se repite hasta llegar a una hoja en donde está el resultado. Cada rama del árbol es una restricción sobre los valores expresada como una conjunción. El árbol se caracteriza por su eficiencia en cuanto a la minimización del número de atributos requeridos para tomar la decisión. Para construir un árbol de decisión se deben realizar los siguientes pasos: a) Elaborar el conjunto de preguntas. b) Determinar la división de los nodos. c) Seleccionar la estrategia para detener el crecimiento del árbol. d) Asignar una clase a cada nodo terminal. 4.1.. CARACTERÍSTICAS DEL CONJUNTO DE PREGUNTAS. Sea xi un individuo con n atributos de la forma xi = {a1, a2 ,..., an } , entonces el conjunto de preguntas debe tener las siguientes características: a) Cada división de los nodos depende del valor de un solo atributo de a j b) Si el atributo a j es continuo las preguntas deben ser de la forma ¿Es a j ≤ p ?, donde p es un número real que define una frontera de decisión. c) Si el atributo a j es categórico y puede tomar valores A = {b1 , b2 ,..., bm } entonces las preguntas deben ser de la forma ¿ a j ∈ Ai ? donde Ai es un subconjunto cualquiera de A.. 10.

(17) IEL2-I-04-17 IEL2-I-04-19 5. MÉTODOS DE AGRUPAMIENTO Los métodos de agrupamiento son métodos de clasificación no supervisada en los que se busca, en la mayoría de los casos, obtener, con una población de N datos, los centros (centroides) ci de cada una de las c clases {ω1,..., ωc } , tal que 2 ≤ c ≤ N . En general, estos centroides se obtienen mediante la minimización de una función. objetivo que mide la disimilitud (o distancia) entre los ni individuos de una misma clase. En los métodos determinísticos cada individuo pertenece a una sola clase y en los difusos un objeto pertenece a una clase con determinada probabilidad. Una vez determinados los centroides se procede a clasificar los individuos, en los determinísticos se asigna a cada individuo la clase correspondiente del centroide más cercano (Esto se puede hacer con cualquiera de las métricas mencionadas en el apéndice A) y en los difusos se asigna cada individuo a la clase con mayor grado de pertenencia.. 5.1.. DETERMINÍSTICOS. En estos métodos cada uno de los individuos xk pertenece, única y exclusivamente, a una de las c clases, {ω1,..., ωc } . Los siguientes métodos son algunos de los más representativos de este grupo.. 5.1.1.. K-means o C-means no difuso [5, 18]. Es un método de clasificación no supervisado que permite agrupar en c clases un conjunto de individuos con n atributos. El objetivo de este algoritmo es obtener, con una población de N datos, los centroides ci de cada una de las c clases {ω1,..., ωc } , tal que 2 ≤ c ≤ N , y a partir de estos centroides clasificar los datos asignándole la clase del centroide más cercano. El procedimiento se basa en la minimización de una función objetivo de la forma: c. ∑ Ji. i =1. =.   Ni   ∑ d ( x j , ci )    i =1 j =1, x j∈ωi   c. ∑. (23). Donde d ( x j , c i ) es la medida de distancia entre el individuo x j y el centroide ci . Una de las métricas más utilizadas es la distancia Euclidiana (Ver apéndice A) Las clases se definen mediante una matriz binaria de pertenencia U, de dimensión c × N , en la que el elemento uij es 1 si el j-ésimo individuo x j pertenece a la clase ω i y 0 de lo contrario. La pertenencia de un individuo a una clase se determina buscando el centroide más cercano a ese individuo: 1 si d ( x j , c i ) ≤ d ( x j , c k ), para todo k ≠ i u ij =  0 de lo contrario Si se utiliza la distancia euclidiana los clusters generados se pueden ver, geométricamente, como hiperesferas alrededor de los centroides que agrupan los datos más cercanos a ellos. Cada uno de los individuos puede pertenecer a una sola clase y esto hace que la matriz de pertenencia U sea estocástica, por consiguiente, tiene dos propiedades importantes: (1). c. ∑ u ij. = 1 , ∀j = 1,..., N. i =1. 11.

(18) IEL2-I-04-17 IEL2-I-04-19 (2). c N. ∑ ∑ u ij. =N. i =1 j =1. El algoritmo se puede resumir en 5 pasos: (1) Se supone un número conocido de c clases conocido tal que 2 ≤ c ≤ N (N cantidad de individuos) (2) Se inicializan los c centroides de las clases, esto se hace generalmente de forma aleatoria. (3) Se determina la matriz de pertenencia U. (4) Cada uno de los centroides se mueve al centro de masa de cada partición: ci =. 1 ni.    x   ∑ k  k , xk ∈ωi . (24). (5) Se repiten los pasos 3 y 4 hasta que los centroides se modifiquen menos que cierta tolerancia predefinida o cuando la función objetivo sea menor que cierto límite. Uno de los inconvenientes de este algoritmo es que no garantiza la convergencia a una solución óptima global, pues existe la posibilidad de que la solución obtenida sea un mínimo local, esto depende en gran medida de la inicialización de los centroides. 5.1.2.. H-means y HK-means [10]. H-means es un algoritmo propuesto como una mejora, en tiempo de convergencia, del algoritmo k-means. El procedimiento es exactamente igual al de k-means (Ver numeral 5.1.1) y la diferencia radica en que los c centroides iniciales se seleccionan aleatoriamente entre los individuos a clasificar. Este procedimiento en algunos casos puede detenerse en una solución degenerada, en la cual se presentan algunas clases vacías. La heurística modificada que permite solucionar este inconveniente es conocida como HKmeans, en la cual las clases vacías son insertadas en la solución como nuevas clases de un solo punto. 5.1.3.. Método de la Montaña [18, 20, 21]. Este es un método de agrupamiento difuso no supervisado propuesto por Yager y Filev cuyo fundamento está en el procedimiento que llevan a cabo los seres humanos al momento de generar clases de manera visual. El objetivo de este algoritmo es obtener, a partir de una población de N datos, los centros (centroides) c i de cada una de las c clases {ω1,..., ωc } , tal que 2 ≤ c ≤ N . Es un procedimiento sencillo que se basa en escoger los n centroides de las clases de entre un conjunto de l posibles centros, obtenidos mediante una discretización del espacio n-dimensional. Esta elección se lleva a cabo mediante una medida de densidad conocida como función de la montaña. Los pasos que se llevan a cabo en el método de la montaña son: (1) Discretización del espacio objetivo: En este primer paso se forma el conjunto V de los l posibles centros de clases. Para encontrar los elementos del conjunto se diseña una rejilla de discretización del espacio n-dimensional de decisión como la presentada en la Figura 5.1. 12.

(19) IEL2-I-04-17 IEL2-I-04-19. Figura 5.1. Rejilla de discretización. Las intersecciones de las líneas que conforman la rejilla son los posibles centroides y, por lo tanto, los elementos de V. La rejilla de discretización puede estar uniformemente espaciada pero no es necesario. Es importante resaltar que el tiempo de ejecución del algoritmo dependerá en gran medida de la rejilla que se genere. (2) Construcción de la función de la montaña: La función de la montaña representa una medida de la densidad de datos alrededor de los posibles centroides. La altura de la función de la montaña en un punto v ∈ V es: N. m(v ) = ∑ e. − d (v, xi ) 2σ 2. (25). i =1. Donde σ es una constante positiva que depende de cada aplicación y que determina la altura y la suavidad de la función de la montaña resultante, xi es cada uno de los N datos a clasificar y d (v, xi ) es una medida de distancia entre v y xi . Como la función de la montaña es inversamente proporcional a la distancia que haya entre v y cada uno de los datos xi , se considera como una medida de densidad puesto que adquiere un mayor valor entre más datos haya alrededor del punto v , por consiguiente, el objetivo es buscar entre los l posibles centroides los que tengan la mayor función de la montaña. (3) Elección del primer centroide y destrucción de la función de la montaña: Una vez construida la función de la montaña se busca entre los l posibles centroides del conjunto V el que tenga la mayor función de la montaña y éste será el primer centroide, c1 . Para determinar el siguiente centroide es necesario utilizar un procedimiento conocido como destrucción de la función montaña, cuyo objetivo primordial es eliminar el efecto del centro identificado. La destrucción de la función de la montaña se realiza generando una función modificada de la montaña, que se obtiene al restar a la anterior función una función Gaussiana centrada en c1 . Por consiguiente, la altura de la función de la montaña modificada en un punto v ∈ V está dada por: mmod ificada (v) = m(v) − m(ci )e. − d (v,c1 ) 2β 2. (26). Donde β es una constante positiva que depende de cada aplicación, c1 es el centroide identificado, y d (v, c1 ) es una medida de distancia entre v y c1 .. 13.

(20) IEL2-I-04-17 IEL2-I-04-19 Se puede ver que la cantidad restada es directamente proporcional a la altura de la función de la montaña en c1 e inversamente proporcional a la distancia entre cada punto v y c1 , logrando de esta forma que puntos que rodean a c1 que, generalmente, también tienen valores altos de la función de la montaña, ahora tengan una función muy cercana a 0 y ya no sean elegidos como centros de clase. (4) Determinación de los demás centroides: Una vez generada la función modificada de la montaña se busca entre los l posibles centroides del conjunto V el que tenga la mayor función de la montaña y éste será el segundo centroide, c 2 , de nuevo se realiza la destrucción de la montaña y el procedimiento se repite hasta encontrar los c centros de las clases. El algoritmo se puede resumir en 6 pasos: (1) Se supone un número de clases c, talque 2 ≤ c < N (2) Se discretiza el espacio objetivo. Se genera un conjunto V con todos los posibles centros de clase. (3) Se calcula la altura de la función de la montaña para todos los v ∈ V por medio de la ecuación (25) (4) Se elige el centroide ci como el elemento v ∈ V que tiene una mayor altura de la función de la montaña. (5) Se calcula la función modificada de la montaña mediante la ecuación (26) (6) Se repiten los pasos (4) y (5) hasta que se encuentre el número deseado de clases.. 5.2.. DIFUSOS. Estos métodos son una extensión de los determinísticos en los que cada uno de los individuos a clasificar x k , tiene un grado, o probabilidad, de pertenencia a cada una de las c clases, {ω1 ,..., ω c } . Este grado de pertenencia toma un valor entre 0 y 1, donde 1 significa que el individuo está justo en el mismo lugar geométrico que uno de los centroides generados con el método y, por consiguiente, el individuo pertenece por completo a esa clase.. 5.2.1.. C-means [5]. Es un algoritmo propuesto por Bezdek en 1973 como una mejora del algoritmo k-means, pues también permite agrupar en c clases {ω1,..., ωc } , tal que 2 ≤ c ≤ N , un conjunto de N individuos con n atributos. Su diferencia radica en que cada dato puede pertenecer a una clase con un cierto grado, conocido como nivel de pertenencia. Este nivel de pertenencia se representa mediante la matriz de pertenencia U, de dimensión c × N , en la que el elemento u ij adquiere un valor entre 0 y 1 que representa el grado de pertenencia del j-ésimo individuo x j a la clase. ω i . Al igual que para K-means la matriz U, es estocástica.. El objetivo de este algoritmo es obtener los centros (centroides) ci , de cada una de las c clases y asignar a cada individuo un grado de pertenencia a cada una de ellas. El procedimiento se basa, al igual que k-means, en la minimización de una función objetivo que mide la distancia entre los ni individuos xk , de una misma clase. La función objetivo es de la forma:. 14.

(21) IEL2-I-04-17 IEL2-I-04-19 c. c.  N. . ∑ J i = ∑  ∑ uijmdij . i =1. i =1 j =1. . (27). Donde dij es la distancia euclidiana entre el individuo x j y el centroide c i (Ver apéndice A) y m es el nivel de difusión entre clases que debe definirse exógenamente. Al minimizar esta función objetivo mediante multiplicadores de Lagrange [5] se obtiene:. ∑ (uij )m x j N. ci =. j =1 N. (28). ∑ (uij ). m. j =1.   c  d ij u ij =  ∑  k =1 d ik . 2   m−1 .   . −1.   . (29). Donde dij es la distancia euclidiana entre el individuo x j y el centroide ci , dik es la distancia euclidiana entre el individuo xk y el centroide ci y m es el nivel de difusión. Como la distancia empleada en este algoritmo es la euclidiana los clusters generados se pueden ver, geométricamente, como hiperesferas alrededor de los centroides que agrupan los datos más cercanos a ellos. El algoritmo se puede resumir en 7 pasos: (1) Se supone un número de clases c, talque 2 ≤ c < N (2) Se elige un nivel apropiado de difusión entre las clases, m (3) Se inicializa aleatoriamente la matriz de pertenencia U (c × N ) talque uij ∈ [0,1] y. c. ∑ uij. =1. j =1. (4) Se calculan los centros de todas las clases. Ver Ecuación (28) (5) Se calculan, para todos los clusters c y todos los puntos N, las distancias euclidianas ( dij ) entre todos los centros de los clusters y cada dato. (6) Se actualiza la matriz de pertenencia de acuerdo con d ij : Si dij > 0 entonces uij se calcula de acuerdo a la ecuación (29) Si d ij = 0 entonces el dato coincide con el centro y u ij = 1 (7) Repetir desde el paso (5) hasta que el cambio en U sea menor a determinada tolerancia. Uno de los inconvenientes de este algoritmo, al igual que para K-means, es que no garantiza la convergencia a una solución óptima global, pues existe la posibilidad de que la solución obtenida sea un mínimo local, esto depende, en gran medida, de la inicialización de la matriz U.. 15.

(22) IEL2-I-04-17 IEL2-I-04-19 5.2.2.. Gustafson-Kessel means [5]. Esta es una modificación, hecha por Gustafson y Kessel en 1979, al algoritmo de c-means en el que se pueden generar clusters con formas de hiperelipses teniendo en cuenta la distribución de los datos. El objetivo de este algoritmo, al igual que en c-means y k-means, es obtener, con una población de N datos, los centros (centroides) c i , de cada una de las c clases {ω1,..., ωc } , tal que 2 ≤ c ≤ N , y asignar grados de pertenencia de los individuos a las clases. El procedimiento se basa en la minimización de una función objetivo que mide la distancia entre los ni individuos xk , de una misma clase. La diferencia con c-means radica en que la distancia no se mide con la norma euclidiana, sino con una norma adaptiva, en la que se tiene una matriz de norma inducida Ai , para cada una de las clases, obteniendo una distancia, entre el individuo x j y el centroide ci , de la forma:. (. ) (. dijAi = x j − ci T Ai x j − ci. ). (30). . Las matrices Ai , son usadas como variables de optimización de tal forma que cada cluster adapta su norma a la forma de sus objetos, generando hiperelipsoides. La función objetivo para GK es de la forma: c. c. . . N. ∑ J i = ∑  ∑ uijm dijAi . i =1. i =1 j =1. . (31). Donde uij son los elementos de la matriz de pertenencia, dijAi es la norma adaptiva entre el individuo x j y el centroide c i y m es el nivel de difusión. Para lograr una solución óptima cada Ai debe fijarse de alguna manera. La más usual es mantener el volumen constante, Ai = ρ i , ρ i > 0 , y optimizar la “forma” del cluster. Usando multiplicadores de Lagrange [5] se obtiene la siguiente solución óptima: (1) Matrices de norma inducida de la forma: Ai = [ρi det( Fi )]1 / n Fi−1. (32). Donde Fi es la matriz de covarianza difusa del i-ésimo cluster, definida como: N. ∑ (uik )m ( xk − ci ) ( xk − ci )T. Fi = k =1. N. (33). ∑ (uik ). m. k =1. Donde u ik son los elementos de la matriz de pertenencia ci y m es el nivel de difusión.. 16.

(23) IEL2-I-04-17 IEL2-I-04-19 (2) Centros de clases dados por:. ∑ (uij )m x j N. ci =. j =1 N. ∑ (uij )m. , para i=1, …, c.. (34). j =1. (3) Elementos de la matriz de pertenencia de la forma:.  c  d ij u ij = ∑   k =1 d ik  .   . 2 m −1.    . −1. (35). El algoritmo se puede resumir en 9 pasos: (1) Se supone un número de clases c, talque 2 ≤ c < N (2) Se elige un nivel apropiado de difusión entre las clases, m (3) Se inicializa aleatoriamente la matriz de pertenencia U (c × N ) talque uij ∈ [0,1] y (4) (5) (6) (7). c. ∑ uij. =1. j =1. Se calculan los centros dados por la ecuación (34) Se calculan las matrices de covarianza de cada cluster definidas en la ecuación (33) Calcular la matriz de norma inducida (Ver ecuación (32)) Se calculan las distancias dijAi por medio de la Ecuación (30). (8) Actualizar la matriz de pertenencia de acuerdo con d ijAi . Si dijAi > 0 entonces uij se calcula con la ecuación (35) Si dijAi = 0 entonces el dato coincide con el centro y u ij = 1 (9) Repetir desde el paso (5) hasta que el cambio en U sea menor a determinada tolerancia Una desventaja de este método es que no asegura la convergencia a una solución óptima. La elección de los centroides iniciales influye en el desempeño del algoritmo. Se podrían calcular estos centroides con otro método para mejorar el desempeño.. 5.2.3.. LAMDA (Learning Algorithm for Multivariate Data Analysis) [11, 12]. LAMDA es un método de clasificación difusa, tanto supervisada como no supervisada, que se basa en analizar el grado de adecuación que tiene cada individuo a cada una de las clases y que permite la utilización de atributos cualitativos, sin necesidad de convertirlos a cuantitativos. Para llevar a cabo la clasificación cada individuo se debe analizar de forma independiente, determinando el grado de adecuación marginal, MAD (Marginal Adequacy Degree), de cada uno de sus n atributos. El MADi corresponde a la contribución que tiene el i-ésimo atributo al grado de pertenencia del individuo a la clase m. De esta manera se halla un vector con los n MAD que representa la situación del individuo con respecto a la clase m.. 17.

(24) IEL2-I-04-17 IEL2-I-04-19 Para encontrar el grado de adecuación global del individuo a dicha clase, GADm (Global Adequacy Degree), se combinan los n grados de adecuación marginal, mediante operadores difusos mixtos. 5.2.3.1. Cálculo del MAD con atributos cuantitativos El MAD del individuo x, para el atributo j a la clase m, está dado por: • Función de tipo binomial. (. ). MAD x jm = ρ mj 1 − ρ mj 1− x j. •. Función de distancia:. (. •. (36). ). MAD x jm = ρ mj1− d mj 1 − ρ mj 1− d mj. (37). d mj = x j − c mj. (38). Función normal. (x j − µmj )2 MAD x jm =. 1. σ mj. e. 2⋅σ mj. (39). Donde en cada caso x j corresponde al valor presente en el descriptor j para el individuo x, ρ mj y c mj corresponden, respectivamente, al valor medio y la mediana de los x j pertenecientes a la clase m. En el caso de la función normal, µ mj es la media de los x j pertenecientes a la clase m y σ mj a la desviación estándar. 5.2.3.2. Cálculo del MAD con atributos cualitativos Es necesario para poder calcular los MAD conocer las modalidades que pueden tomar los atributos, pues el grado de adecuación marginal MAD x jm corresponde a la frecuencia de aparición de la clase m, para el atributo j en la modalidad que está presente en el individuo x, es decir, MAD x jm = f mj Tanto para clasificación supervisada como para clasificación no supervisada las frecuencias están dadas por: (k ) f mj. =. ( k −1) f mj. ( k −1) x j − f mj + nm + 1. (40). Donde x j es 1 si el descriptor j del individuo x tiene la modalidad que se está analizando y 0 de lo contrario. Las frecuencias iniciales son el inverso de la cantidad de modalidades que tenga cada atributo. La única diferencia entre el aprendizaje supervisado y el no supervisado, es que en el primero la actualización de las frecuencias se hace solo mientras se estén analizando los datos de entrenamiento, mientras que para el no supervisado se actualizan cada que entre un nuevo dato.. 18.

(25) IEL2-I-04-17 IEL2-I-04-19 5.2.3.3. Cálculo del GAD El grado de adecuación global de un objeto a una clase se calcula haciendo una combinación de los grados marginales. El GAD para la clase m está dado por:. (. ). (. GADαm = αT MADx1m , MADx 2m , ..., MADx jm + (1 − α )S MADx1m , MADx 2m , ..., MADx jm. ). (41). Donde α es el parámetro de exigencia y puede tomar valores entre 0 y 1 y T y S corresponden a cualquier norma T y S. 5.2.3.4. Clasificación de los datos En el caso de clasificación supervisada el objeto pertenecerá a la clase que tenga un mayor GAD, siempre y cuando este grado de adecuación supere un umbral mínimo. En el caso en que el GAD no superé dicho umbral el individuo se asigna a una clase de no información (NIC, Non Informative Class). Cuando se está haciendo clasificación supervisada los individuos que pertenezcan a la clase NIC se dice que no pertenecen a ninguna de las clases. Mientras que en el caso de aprendizaje no supervisado se genera una nueva clase con los individuos que pertenecen a la clase de no información. Cuando se trabaja con aprendizaje no supervisado en el momento de empezar la clasificación se comienza teniendo una clase NIC y cuando entre el primer individuo se genera una nueva clase de acuerdo al MAD de la clase inicial de no información. Cuando entra un nuevo individuo se evalúa si pertenece a una nueva clase existente calculando el MAD y el GAD de cada clase, de no ser así se analiza si supera el GAD de la clase NIC, en ese caso se asigna a ésta clase y de lo contrario se debe crear una nueva clase, como se hizo con el primer objeto.. 19.

(26) IEL2-I-04-17 IEL2-I-04-19 6. REDES NEURONALES ARTIFICIALES [6, 18] Las Redes Neuronales Artificiales (RNA) son usadas para resolver problemas de clasificación. Estas, pretende imitar el funcionamiento del cerebro humano en varios aspectos: 1) Estructura: Las RNA, como su nombre lo indica, son un conjunto de neuronas interconectadas mediante pesos sinápticos que corresponden a los “axones” del cerebro. De ésta forma, las neuronas en las RNA reciben como entradas la suma ponderada de la salida de otras neuronas. 2) Funcionamiento de cada neurona: Las RNA buscan imitar el proceso de activación de las neuronas biológicas, en las cuales el nivel de actividad eléctrica de los axones se pondera mediante el peso que da la sinapsis y así se determina la salida de la neurona, representada en cierta actividad eléctrica. 6.1.. MODELO DE UNA NEURONA. Figura 6.1. Modelo de una neurona. En el modelo de una neurona artificial, como el presentado en la Figura 6.1, hay tres elementos básicos [10]: 1) Conexiones o sinapsis: Determinan el comportamiento de la neurona pues son las que tienen los pesos con los que se pondera la entrada. 2) Sumador: Realiza la suma ponderada de las entradas con los pesos de las respectivas sinapsis. 3) Función de activación: Limita la amplitud de la salida de la neurona. Puede ser de varios tipos: NOMBRE. DESCRIPCIÓN. Limitador duro. Función escalón dada por: 0 si z ≤ 0 f LD ( z ) = u ( z ) =  1 si z > 0. Limitador duro simétrico. − 1 si z ≤ 0 f LDS ( z ) =  1 si z > 0. Logarítmica. Tangente hiperbólica. f LOG ( z ) =. 1. 1 + e − β ⋅z. f TH ( z ) = tanh( z ). 20. GRÁFICA.

(27) IEL2-I-04-17 IEL2-I-04-19. Lineal positiva. 0 si z ≤ 0 f LP ( z ) =  z si z > 0. Lineal. f L ( z) = z. Base Radial. f BR ( z ) = e − z. Saturación Lineal. 0 si z ≤ 0  f SL ( z ) = z si 0 < z < 1 1 si z ≥ 0 . Saturación Lineal Simétrica. f SLS. 2. 1 si z ≤ −1  ( z ) = z si - 1 < z < 1 1 si z ≥ 1 . Tabla 6.1. Tipos de Funciones de Activación. 6.2.. FUNCIONAMIENTO DE UNA NEURONA. Sea xi un vector en el espacio n-dimensional, de la forma xi = {a1 , a 2 ,..., a n } , la operación que se lleva a cabo en la neurona es: 1) Establecer el estado interno de la neurona i: u i = g ( xi , w) =. k. ∑ wij .a j + w0 j =1. (42). El peso w0 es necesario pues no siempre los datos tienen media 0. 2) Establecer la salida de la neurona, que corresponde a la función de activación evaluada en el estado interno de la neurona: s i = f (u i ) = f (g ( xi , w) ). 6.3.. (43). PARÁMETROS PARA EL DISEÑO DE UNA RED NEURONAL ARTIFICIAL. Tanto el número de capas que van a constituir la red como la cantidad de neuronas que estarán presentes en cada capa, deben ser determinados en el momento en el que se diseña la red. También existen técnicas que permiten modificar dichas cantidades durante el aprendizaje, tal es el caso de las redes autoajustables. 21.

(28) IEL2-I-04-17 IEL2-I-04-19 En el caso específico de clasificación, la capa de salida de la RNA, corresponde al número de clases que se tenga. Es por esto, que los problemas de clasificación que se pretenden resolver con redes neuronales deben tener definido, de antemano, el número de clases. Entre mayor sea el número de clases mayor será el número de neuronas de salida, generando un aumento considerable en el tiempo de cómputo empleado en el algoritmo de aprendizaje.. 6.4.. APRENDIZAJE DE UNA RED NEURONAL ARTIFICIAL. El aprendizaje de una red neuronal es el proceso mediante el cual los parámetros de la red, comúnmente los pesos, se adaptan a la distribución de los datos que pertenecen al conjunto de entrenamiento. De manera más específica cuando se realiza clasificación supervisada el proceso de aprendizaje se puede resumir en tres pasos: se calcula la respuesta para un individuo de entrenamiento, se compara la salida con la esperada y se modifican los pesos de la red para intentar encontrar la función que permita hacer la partición del espacio de forma adecuada. Uno de los puntos más importantes a tener en cuenta es que el objetivo no es que la red haga una adecuada partición del espacio solo con los datos de entrenamiento, sino que la red generalice, es decir, de respuestas adecuadas a estímulos nuevos. Los algoritmos de aprendizaje de RNA difieren según el tipo de red, la función de error y el algoritmo de optimización. 6.4.1.. Redes de una capa. Para las redes de una sola capa se encuentran, entre otros, el algoritmo de error mínimo cuadrado (LMS), algoritmo del perceptrón y algoritmo del perceptrón con bolsillo. 6.4.1.1. Algoritmo de error mínimo cuadrado (LMS) Sea N e el número de datos de entrenamiento cada uno con un vector de n atributos xi = {a1 , a 2 ,..., a n } y con una clase yi ∈ Ω = {ω1 ,..., ω c } , para este algoritmo la función de error es una función de distancia dada por: E ( w) =. 1 Ne ∑ [yi − g (xi , w)]2 2 i =1. (44). El algoritmo debe buscar el peso óptimo, mediante gradiente descendiente, tal que: w* = min E ( w). (45). w. El algoritmo se puede resumir en 5 pasos: 1) Inicializar los pesos ( w (0) ) en un punto aleatorio 2) Escoger una pareja (xi , yi ) al azar 3) Calcular el error de la iteración k, dado por: E (w(k ) ) =. [. (. )]. 2 1 Ne y i − g xi , w ( k ) ∑ 2 i =1. 22. (46).

(29) IEL2-I-04-17 IEL2-I-04-19 4) Actualizar los pesos mediante búsqueda de gradiente:. ( ). w ( k +1) = w ( k ) − µ∇wE w ( k ). (47). Donde µ es la tasa de aprendizaje 5) Repetir los pasos 2, 3 y 4 hasta que se alcance una condición de terminación. 6.4.1.2. Algoritmo del perceptrón Sea N e el número de datos de entrenamiento cada uno con un vector de n atributos, xi = {a1 , a 2 ,..., a n } y con una clase yi ∈ Ω = {−1,1} , con estos supuestos se puede decir que los datos están clasificados correctamente si g ( xi , w) ⋅ yi > 0 , por consiguiente, la función de error del perceptrón está dada por: Ne. E ( w) = − ∑ g (xi , w) ⋅ yi i =1. (48). El algoritmo debe buscar el peso óptimo, por medio de gradiente descendiente, tal que w* = min E ( w) w. (49). El algoritmo se puede resumir en 5 pasos: 1) Inicializar los pesos ( w (0) ) en 0 2) Escoger una pareja ( xi , yi ) al azar 3) Calcular el error dado por la ecuación (48) 4) Actualizar los pesos mediante búsqueda de gradiente, de la misma forma que se hace en LMS (Ver ecuación (47)) 5) Repetir los pasos 2, 3 y 4 hasta que se alcance una condición de terminación. 6.4.1.3. Algoritmo del perceptrón con bolsillo Este algoritmo hace los mismos supuestos y tiene la misma función de error que el perceptrón, la diferencia está en que el algoritmo va guardando en el “bolsillo” la mejor solución que haya encontrado mientras se va ejecutando y cuando se alcanza la condición de terminación el peso que se utilizará será el que esté en el bolsillo, que no es necesariamente el de la última iteración. 6.4.2.. Redes de varias capas. Para las redes de varías capas (como la presentada en la Fig. 6.2) también existen varios algoritmos de aprendizaje, entre los que se encuentran Perceptrón Multinivel, Backpropagation, Momento, Tasa de Aprendizaje Variable, Método de Newton, Método de Quasi-Newton, entre otros. Las redes de varias capas tienen generalmente una estructura como la que se puede ver en Fig. 6.2 con una única neurona en la capa de salida que suele tener una función de activación lineal. 23.

(30) IEL2-I-04-17 IEL2-I-04-19. Figura 6.2. Modelo de una Red Neuronal multicapa. 6.4.2.1. Algoritmo del perceptrón multinivel Es la generalización del algoritmo del perceptrón presentado en el numeral 6.4.1.2 6.4.2.2. Backpropagation Sea N e el número de datos de entrenamiento cada uno con un vector de n atributos, xi = {a1 , a 2 ,..., a n } y con una clase yi ∈ Ω = {ω1 ,..., ω c } , la función de error del perceptrón está dada por: E ( w) =. Ne 1 Ne [yi − h(xi , w)]2 = 1 ∑ E p ∑ 2 i =1 2 i =1. (50). Donde h( xi , w) es la salida de la red a xi . El algoritmo debe buscar el peso óptimo, mediante gradiente descendiente, tal que: w* = min E ( w) w. (51). Es importante tener en cuenta que para las neuronas de las capas internas el estado está dado por la salida de las neuronas de la capa anterior: c j = ∑ w ji .si + w0. (52). i. La característica más importante de este algoritmo es que los pesos se calculan desde la salida de la red hacia. δ j dada por:. atrás. Para esto se utiliza una variable. δ j = h( x i , w) − y i , para la neurona de salida. δj =∑ k. ∂E p ∂ck ∂ck ∂c j. , para las demás neuronas.. 24. (53) (54).

(31) IEL2-I-04-17 IEL2-I-04-19 El procedimiento se resume en calcular la salida de la red h( xi , w) , calcular δ j desde la salida a las capas anteriores y actualizar los pesos. Esto se puede ver en 6 pasos: 1) Inicializar los pesos ( w (0) ) en un punto aleatorio. 2) Escoger una pareja (x i , y i ) al azar 3) Calcular calcula la salida de la red h( x i , w). ( ). 4) Calcular ∇wE w ( k ) y los δ j 5) Actualizar los pesos mediante búsqueda de gradiente (Ver ecuación (47)) 6) Repetir los pasos 2, 3 , 4 y 5 hasta que se alcance una condición de terminación.. 25.