Aprendizaje y ajuste de Mapas Cognitivos Difusos

CAPÍTULO 1. MARCO TEÓRICO DE LA INVESTIGACIÓN

1.4 Mapas Cognitivos Difusos

1.4.4 Aprendizaje y ajuste de Mapas Cognitivos Difusos

El objetivo en el aprendizaje de los MCD se ha relacionado con la optimización de la causalidad, es decir, obtener la matriz de pesos causales entre los conceptos del mapa que mejor se ajuste en función del conocimiento sobre un problema de toma de decisiones o clasificación. Normalmente, el conjunto de conceptos 𝐶 se determina por un experto y solamente la matriz de pesos 𝑊 se ajusta a partir de datos históricos (Papageorgiou 2012). De esta manera, los algoritmos de aprendizaje pueden entrenar los MCD de forma similar a la sinapsis en Redes Neuronales Artificiales. De hecho, la mayoría de los algoritmos propuestos en la literatura se basan en ideas procedentes del entrenamiento de Redes Neuronales Artificiales (Papageorgiou 2012).

Los enfoques para el entrenamiento de MCD pueden utilizar la intervención de expertos humanos, o bien partir solamente de datos históricos, o utilizar ambas cosas. Atendiendo a esto, los algoritmos de aprendizaje para MCD pueden clasificarse en tres grupos de acuerdo al tipo de

conocimiento que utilizan: los basados en el aprendizaje Hebbiano, los basados en algoritmos poblacionales, y los enfoques híbridos que combinan ambos paradigmas.

En el caso de los algoritmos no supervisados, los métodos basados en el aprendizaje Hebbiano utilizan los datos históricos y una fórmula de aprendizaje basada en varias modificaciones de la regla de Hebb, para ajustar iterativamente los pesos del mapa. La primera propuesta basada en este paradigma fue publicada en (Dickerson and Kosko 1993) con el nombre de Differential Hebbian Learning (DHL). El algoritmo DHL asume que si el concepto inicial 𝐶_𝑖 y el final 𝐶_𝑗 de una relación cambian simultáneamente, el peso 𝑤_𝑖𝑗 de esa relación debe ajustarse utilizando la siguiente expresión:

𝑤_𝑖𝑗(𝑡 + 1) = 𝑤𝑖𝑗(𝑡) + 𝛾(𝑡)(∆𝐴𝑖∆𝐴𝑗− 𝑤𝑖𝑗(𝑡)) (1.3)

donde 𝑡 es el tiempo actual de la inferencia del mapa, ∆𝐴_𝑖 y ∆𝐴_𝑗 son las variaciones en los valores de activación de los conceptos 𝐶_𝑖 y 𝐶_𝑗 respectivamente, y 𝛾(𝑡) es un coeficiente que se calcula dinámicamente con la expresión 𝛾(𝑡) = 0.1(1 −_1.1𝑞𝑡 ) donde 𝑞 ∈ ℕ y garantiza que el peso 𝑤_𝑖𝑗 se mantenga en el intervalo [-1,1]. El parámetro 𝑞 puede establecerse como el número de iteraciones del aprendizaje. El aprendizaje continúa hasta que se alcanza un número máximo de iteraciones o se encuentra una matriz estable.

Una de las principales desventajas de este primer enfoque es que la fórmula solo actualiza los pesos entre un par de conceptos, ignorando la influencia de otros conceptos. Otras modificaciones a este algoritmo han sido propuestas al algoritmo DHL considerándose esta desventaja. Por ejemplo el algoritmo Balanced Differential Algorithm (BDA) (Huerga 2002) elimina una de las deficiencias de DHL teniendo en cuenta todos los conceptos que cambian su valor cuando se van a actualizar los pesos, pero ha sido solo aplicado en MCD binarios. Otro enfoque llamado Active Hebbian Learning (AHL) (Papageorgiou, Stylios et al. 2004), utiliza la intervención inicial de los expertos en determinar la estructura inicial del mapa y una secuencia de activación de los conceptos. Asimismo, otra mejora al DHL fue propuesta en (Papageorgiou, Stylios et al. 2003) llamada Nonlinear Hebbian Learning (NHL) que además de la intervención inicial de los expertos en determinar la estructura, necesita establecer los signos de las conexiones antes de comenzar el proceso de ajuste.

En general estos modelos de aprendizaje no tienen como objetivo encontrar un matriz de pesos que se ajuste completamente a los datos históricos disponibles, sino que más bien se enfocan en obtener matrices que converjan a un punto estable (Papageorgiou 2012).

Un enfoque ligeramente diferente fue propuesto en (Stach, Kurgan et al. 2008) donde el algoritmo Data Driven NHL (DDNHL) utiliza los datos históricos para mejorar la calidad del aprendizaje, pero en un estudio reciente en (Papakostas, Koulouriotis et al. 2012) no mostró resultados prometedores en problemas de clasificación. En general, la ventaja principal de estos algoritmos es su fácil implementación y ejecución muy rápida, pues no son complejos computacionalmente.

Por otra parte, los algoritmos poblacionales si utilizan los datos históricos con el objetivo de obtener modelos que se ajusten al conocimiento disponible lo más fielmente posible. Estos esquemas supervisados son algoritmos de optimización que por lo general son mucho más exigentes desde el punto de vista de complejidad computacional. La representación del individuo es una característica en común de los numerosos enfoques propuestos, y puede describirse como la construcción de un vector de pesos que contiene todas las filas de la matriz de causalidad una a continuación de la otra (Figura 1.7).

Figura 1.7 Representación del individuo en un enfoque poblacional para ajustar la causalidad de un MCD.

Otro aspecto a definir es la función objetivo a utilizar. Una de las más comunes para problemas de clasificación supervisada es la del error de ajuste, ecuación 1.4:

𝐹𝑖𝑡𝑛𝑒𝑠𝑠𝐸𝑟𝑟𝑜𝑟 = ∑ ∑|𝐼𝑛𝑓_𝑖(𝑘) − 𝑅𝑒𝑎𝑙_𝑖(𝑘)| 𝑛 𝑖=1 𝐾 𝑘=1 (1.4)

donde 𝑘 representa las instancias de entrenamiento, 𝑛 es la cantidad de conceptos del mapa, e

𝐼𝑛𝑓𝑖(𝑘) y 𝑅𝑒𝑎𝑙𝑖(𝑘) son la inferencia del concepto 𝑖 del mapa y el valor real esperado

respectivamente, para la instancia de entrenamiento 𝑘.

Existen varios enfoques para el ajuste de MCD que utilizan algoritmos basados en poblaciones. En el artículo de (Papageorgiou 2012) se hace una revisión exhaustiva y crítica de los enfoques publicados hasta el año 2012, que incluye Algoritmos Genéticos, Algoritmos Genéticos de Código Real, Optimización de Bandadas de Partículas, Recocido Simulado, Búsqueda Tabú, entre otros. Particularmente la Optimización de Bandadas de Partículas ha mostrado resultados relevantes en el ajuste de la matriz de causalidad del mapa.

Finalmente, los enfoques híbridos pueden implementarse con una combinación de los dos tipos de aprendizaje mencionados anteriormente: algoritmos Hebbianos y algoritmos poblacionales. Los pocos algoritmos propuestos bajo esta categoría están compuesto por procesos de aprendizaje en dos pasos. Estas propuestas también han mostrado resultados prometedores (Papageorgiou 2012), llevando el sistema al estado de estabilidad deseado y determinándose una matriz apropiada para cada problema específico.

De forma general, los algoritmos de aprendizaje computacional para MCD han ganado atención en los últimos 10 años. La efectividad de estas técnicas de aprendizaje en el modelado y la predicción utilizando MCD han sido evidenciadas por varias aplicaciones exitosas en diversos dominios. Para la selección del algoritmo adecuado son necesarios diferentes factores, por ejemplo el tipo de datos de entrenamiento. Los métodos basados en la regla de Hebb son apropiados para determinados tipos de datos y son mucho más rápidos cuando está disponible el conocimiento experto. Mientras los algoritmos poblacionales a pesar de ser más consumidores, proveen de una mejor calidad en el aprendizaje, desde el punto de vista de la similaridad al comportamiento del sistema dinámico real.

In document Descubrimiento de conocimiento en el problema de resistencia a fármacos del VIH utilizando Mapas Cognitivos Difusos (página 33-37)