Un modelo neuronal basado en la metaplasticidad para la clasificación de objetos en señales 1-d y 2-d

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN. UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACIÓN DE OBJETOS EN SEÑALES 1-D Y 2-D.. TESIS DOCTORAL. Alexis Enrique Marcano Cedeño Lic. en Informática. 2010.

(2) Universidad Politécnica de Madrid Escuela Técnica Superior de Ingenieros de Telecomunicación Departamento de Señales, Sistemas y Radiocomunicaciones. UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACIÓN DE OBJETOS EN SEÑALES 1-D Y 2-D. TESIS DOCTORAL. Autor:. Alexis Enrique Marcano Cedeño Lic. en Informática. Director:. Diego Andina de la Fuente Dr. Ingeniero del Dpto. de Señales, Sistemas y Radiocomunicaciones Universidad Politécnica de Madrid. 2010.

(3) TESIS DOCTORAL. UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACIÓN DE OBJETOS EN SEÑALES 1-D Y 2-D. AUTOR:. Alexis Enrique Marcano Cedeño. DIRECTOR:. Diego Andina de la Fuente. PRESIDENTE: SECRETARIO: VOCAL: VOCAL: VOCAL: SUPLENTE: SUPLENTE:. Realizado el acto de defensa y lectura de Tesis el dı́a. de. En la E.T.S. de Ingenieros de Telecomunicación. Calificación:. EL PRESIDENTE. EL SECRETARIO. LOS VOCALES. de 2010..

(4) A Camila por el tiempo robado......

(5) ((Aquella teorı́a que no encuentre aplicación práctica en la vida, es una acrobacia del pensamiento)). Swami Vivekananda.

(6) Dedicatoria Dedicada muy especialmente:. A mis padres Anı́bal y Luisa de Marcano (†) por haberme dado la vida, por guiarme y darme su apoyo en todo momento.. A Carol por su paciencia, confianza, apoyo y por haberme dado el impulso necesario para alcanzar esta meta.. A mis hermanos Crispina, José y Luisa Celeste por todo su apoyo, confianza y aliento desde la planificación, inicio y finalización de mis estudios doctorales.. A mis sobrinos Franchiny, Cristian, Cris José, Franco y Frank Ali por haberme dado la oportunidad de compartir sus vivencias, experiencias y sobre todo por haberme dado muchas alegrı́as y satisfacciones.. A mis amigos, compañeros y profesores de la Universidad Pedagógica Experimental Libertador (UPEL), Elsa Rivas, Abdel Puerta, Victor Reyes por su apoyo incondicional en esta etapa.. i.

(7) Agradecimientos La realización y culminación de esta tesis no hubiera sido posible sin la colaboración de muchas personas que, de un modo u otro me han aportado sus conocimientos y brindado su apoyo.. En primer lugar quiero dar mi agradecimiento a mi tutor y director de tesis Dr. Diego Andina de la Fuente, quien desde el primer momento me dio todo su apoyo, amistad y me guió durante esta investigación ası́ como también supo canalizar todas mis esfuerzos para finalizar con éxito esta etapa de mi vida. Debo agradecer, además, su paciente revisión del texto presentado.. Este trabajo ha sido enriquecido y fortalecido por las sugerencias, aportaciones, crı́ticas y recomendaciones en los aspectos teóricos y prácticos por los profesores Joaquı́n Torres, Ernesto Castañeda, José Luis Tapia, Juan Grau, Antonio Fumero, Carlos Gonzalez.. Lupita, Joel, Aleskandar, Benjamı́n, Fulgencio mis compañeros de laboratorio de GASC, por sus sugerencias, criticas, aportaciones y recomendación durante todos mis estudios doctorales y muy especialmente por haber hecho mis estancia más sencilla y placentera.. De manera muy especial a Miguelito por todas sus aportaciones, sugerencias, recomendaciones y por su compañı́a durante esta fase del doctorado.. Este trabajo hubiera sido casi imposible de terminar sin la valiosa colaboración y aportación del Fondo Nacional de Ciencia, Tecnologı́a e Innovación de la República Bolivariana de Venezuela.. ii.

(8) Resumen El Algoritmo de Retropropagación (Algoritmo Backpropagation, ABP), es uno de los algoritmos más conocidos y utilizados para el entrenamiento de las Redes Neuronales Artificiales, RNAs. El ABP ha sido empleado con éxito en problemas de clasificación de patrones en áreas como: Medicina, Bioinformática, Telecomunicaciones, Banca, Predicciones Climatológicas, etc. Sin embargo el ABP tiene algunas limitaciones que le impiden alcanzar un nivel óptimo de eficiencia (problemas de lentitud, convergencia y de exactitud en la clasificación). Estos problemas han dado lugar a un gran número investigaciones para mejorar al mencionado algoritmo. Pero a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavı́a no existe una solución optima, que se pueda aplicar a todos los problemas.. En esta Tesis Doctoral se propone una alternativa para mejorar algunas de las deficiencias del ABP. El algoritmo propuesto, es una aplicación de un modelo neuronal basado en la propiedad biológica de la Metaplasticidad. La Metaplasticidad es un concepto biológico ampliamente conocido y usado en muchos campos relacionados con la Biologı́a, Neuro-Biologı́a, Psicologı́a, Neurologı́a y Neuro-Fisiologı́a entre otros. La Metaplasticidad está relacionada con los procesos de la memoria y del aprendizaje.. Una de las ventajas del algoritmo propuesto de la Metaplasticidad Artificial (Artificial Metaplasticity, AMP) es que, se puede implementar en cualquier RNA, en esta tesis, se implementó por primera vez para diversas aplicaciones multidisciplinarias en un Perceptron Multicapa (Multilayer Perceptron, MLP). De todos los modelos AMP probados en la literatura, el modelo más eficiente (en función del tiempo de aprendizaje y rendimiento) es el enfoque que conecta la metaplasticidad con la Teorı́a de la información de Shannon, que establece que los patrones menos frecuentes tienen más información que los patrones más frecuentes. Este modelo deiii.

(9) fine la metaplasticidad artificial como un procedimiento de aprendizaje que produce una mayor modificación en los pesos sinápticos de los patrones menos frecuentes que de los patrones más frecuentes, como una forma de extraer más información de los primeros que de los últimos.. El modelo de la Metaplasticidad Artificial en un Percentrón Multicapa (Artificial Metaplasticity on Percentrón Multilayer, AMMLP) se aplicado en la fase de entrenamiento de las RNAs. Durante esta fase, el algoritmo AMMLP a dado más relevancia a los patrones menos frecuentes y se ha restado importancia a los más frecuentes, asegurando ası́ un entrenamiento más eficaz, mientras se mantiene el rendimiento del MLP.. El algoritmo propuesto AMMLP se ha aplicado a diferentes problemas relacionados con la clasificación de patrones en distintas áreas (Médica, Finanzas e Industriales), demostrando en todos los casos ser superior en términos de exactitud en la clasificación, velocidad de convergencia, fiabilidad y bajo coste computacional a los algoritmos propuestos recientemente por otros investigadores y que han sido comparados en esta tesis.. iv.

(10) Abstract The Backpropagation Algorithm, BPA, is one of the most known and used algorithms to training the Artificial Neuronal Networks, ANNs. The BPA has been success used in problems of patterns classification in areas such as: Medicine, Bioinformatic, Telecommunications, Banking, Climatological Predictions, etc. However the BPA has some limitations that prevent to reach an optimal efficiency level (slowness problems, convergence and classification accuracy). These problems have provoked a big number researches to improve the BPA. However, in general none of the modifications have been capable of delivering satisfactory performance for all problems.. In this doctoral Thesis is proposed an alternative to improve some of the BPA deficiencies. The suggested algorithm, is a neuronal model based on the biological property of the Metaplasticity. The Metaplasticity is a biological concept widely known in the fields of biology, medical computer science, neuroscience, physiology, neurology and others. The Metaplasticity is related to the processes of memory and of the learning.. The main advantage of the suggested Artificial Metaplasticity algorithm, AMP, is that, it is able implementing in any ANNs, in this thesis, algorithm was implemented in a Multilayer Perceptron, MLP. The most efficient AMP model (as a function of learning time and performance) is the approach that connects metaplasticity and Shannon’s information theory, which establishes that less frequent patterns carry more information than frequent patterns. This model defines artificial metaplasticity as a learning procedure that produces greater modifications in the synaptic weights with less frequent patterns than frequent patterns, as a way of extracting more information from the former than from the latter.. v.

(11) The Artificial Metaplasticity on Multilayer Percentrón, (AMMLP) model was applied in the ANNs training phase. During the training phase, the AMMLP algorithm assigns higher values for updating the weights in the less frequent activations than in the more frequent ones. AMMLP achieves a more efficient training and improves MLP performance.. The suggested AMMLP algorithm was applied to different related problems to the pattern classification in different areas (Medical, Finance and Industrialists). The AMMLP demonstrated in all cases be superior in terms of classification accuracy, speed, reliability and low computational cost than others algorithms recently suggested by other researchers and applied a this areas.. vi.

(12) Índice 1. Introducción. 1. 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.4.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.4.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.5. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 2. Redes Neuronales Artificiales. 17. 2.1. Neuronas Biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . .. 20. 2.2.1. Definición de Red Neuronal . . . . . . . . . . . . . . . . . . .. 20. 2.2.2. La Neurona Artificial. . . . . . . . . . . . . . . . . . . . . . .. 21. 2.2.3. Aprendizaje de las Redes Neuronales Artificiales . . . . . . .. 24. 2.2.4. Arquitectura de las Redes Neuronales Artificiales . . . . . . .. 27. 3. El Perceptrón. 34. 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 3.2. El Perceptrón Monocapa . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 3.2.1. Dinámica del Perceptrón . . . . . . . . . . . . . . . . . . . . .. 35. 3.2.2. Aprendizaje del Perceptrón . . . . . . . . . . . . . . . . . . .. 39. 3.2.3. Limitaciones del Perceptrón Monocapa . . . . . . . . . . . . .. 43. vii.

(13) 3.3. El Perceptrón Multicapa . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.4. El Algoritmo de Retropropagación . . . . . . . . . . . . . . . . . . .. 48. 3.4.1. Método del Gradiente . . . . . . . . . . . . . . . . . . . . . .. 49. 4. La Metaplasticidad. 57. 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 4.2. Reseña Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 4.3. Plasticidad Sináptica . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.3.1. Potenciación y Depresión a largo plazo . . . . . . . . . . . . .. 59. 4.3.1.1. Potenciación a Largo Plazo, PLP . . . . . . . . . . .. 59. 4.3.1.2. Depresión a Largo Plazo, DLP . . . . . . . . . . . .. 61. 4.4. Plasticidad Intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 4.5. Metaplasticidad. 62. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. Metaplasticidad Artificial 5.1.. 65. La Metaplasticidad y la Teorı́a de la Información de Shannon . . . .. 65. 5.2. Algoritmo de Backpropagation y AMP . . . . . . . . . . . . . . . . .. 66. 5.3. Implementación de la Metaplasticidad Artificial en el Entrenamiento de un MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.4. Algoritmo AMMLP . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 5.5. Selección de la estructura de Red de un AMMLP . . . . . . . . . . .. 71. 6. Experimentos y Resultados. 74. 6.1. Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.1.1. Base de Datos de Cáncer de Mama de Wisconsin . . . . . . .. 74. 6.1.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 76. 6.1.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 77. 6.1.3.1. Exactitud de los resultados . . . . . . . . . . . . . .. 77. 6.1.3.2. Resultados de la curva ROC . . . . . . . . . . . . .. 80. 6.1.3.3. Comparación con el Estado-del-Arte . . . . . . . . .. 83. 6.1.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 85. viii.

(14) 6.2. Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 6.2.1. Base de Datos de Aprobación de Crédito de Australia . . . .. 86. 6.2.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 87. 6.2.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 88. 6.2.3.1. Exactitud de los resultados . . . . . . . . . . . . . .. 89. 6.2.3.2. Comparación con el Estado-del-Arte . . . . . . . . .. 91. 6.2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 92. 6.3. Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 93. 6.3.1. Base de datos de Nudos . . . . . . . . . . . . . . . . . . . . .. 94. 6.3.1.1. Extracción de Caracterı́sticas . . . . . . . . . . . . .. 94. 6.3.1.2. Selección de Caracterı́sticas . . . . . . . . . . . . . .. 96. 6.3.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 96. 6.3.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 97. 6.3.3.1. Comparación con el Estado-del-Arte . . . . . . . . .. 99. 6.3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 6.4. Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.4.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.4.2. Selección de la Estructura de Red . . . . . . . . . . . . . . . 101 6.4.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . . 102 6.4.3.1. Comparación con el Estado-del-Arte . . . . . . . . . 104 6.4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.5. Experimento 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.5.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.5.2. Selección de Caracterı́sticas . . . . . . . . . . . . . . . . . . . 108 6.5.2.1. Selección Secuencial Adelante . . . . . . . . . . . . . 108 6.5.2.2. Red Neuronal de Alimentación Adelante . . . . . . 108 6.5.2.3. Implementación del SFS-FFNN. . . . . . . . . . . . 109. 6.5.3. Selección de la Estructura de Red . . . . . . . . . . . . . . . 111 6.5.4. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . . 112 6.5.4.1. Comparación con el Estado-del-Arte . . . . . . . . . 113 ix.

(15) 6.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 7. Conclusiones. 115. 8. Contribuciones y Lı́neas Futuras de Investigación. 117. 8.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2. Lı́neas Futuras de Investigación . . . . . . . . . . . . . . . . . . . . . 119. I. APÉNDICES. 121. 8.3. Publicaciones que sustentan la Tesis . . . . . . . . . . . . . . . . . . 122 8.3.1. Publicaciones en Revistas (JCR) . . . . . . . . . . . . . . . . 122 8.3.2. Publicaciones en Congresos . . . . . . . . . . . . . . . . . . . 122 8.4. Otras Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 125. x.

(16) Índice de Figuras 2.1. Estructura básica de una neurona biológica.. . . . . . . . . . . . . .. 18. 2.2. Representación de una neurona artificial tipo McCulloch-Pitts. . . .. 21. 2.3. a) Muestra un ejemplo de una red Feed-forward, en esta red la información siempre se mueve en una dirección, nunca va hacia atrás. (b) En las redes recurrentes, la información puede fluir en dos direcciones y los nodos de entrada se pueden comunicar con los nodos de salida.. 29. 2.4. Arquitectura de un Perceptrón Multicapa.. . . . . . . . . . . . . . .. 30. 2.5. Arquitectura de un mapa autoorganizado.. . . . . . . . . . . . . . .. 31. 2.6. Arquitectura de una red de función de base radial. . . . . . . . . . .. 32. 2.7. Taxonomı́a Básica de las RNA . . . . . . . . . . . . . . . . . . . . .. 33. 3.1. Esquema de un perceptrón monocapa. . . . . . . . . . . . . . . . . .. 35. 3.2. Función lógica AND.. . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 3.4. Perceptrón monocapa con N neuronas. . . . . . . . . . . . . . . . . .. 38. 3.5. Función lógica XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.3. Función lógica OR.. 3.6. Distintas formas de las regiones generadas por un perceptrón multicapa. 47. xi.

(17) 4.1. Proceso de inducción a la Potenciación a Largo Plazo, PLP: a) Normalmente el canal NMDA esta bloqueado por una molécula de Magnesio (M g 2+ ). b) La activación repetida del receptor AMPA permite la entrada de sodio (N a+ ) a la neurona lo que produce una despolarización de la misma y expulsa el Magnesio del canal NMDA y permite la entrada de iones de calcio Ca2+ . c) el incremento del iones de calcio produce la activación de las proteı́nas cimasas lo que hace más sensible a la neurona a nuevos estı́mulos, lo cual facilita la PLP. . . .. 60. 4.2. Proceso de inducción a la Depresión a Largo Plazo, DLP: a) La DPL se produce con cuando se activan los receptores NMDA y el ingreso del calcio (Ca2+ ) a la neurona postsináptica es un pocas cantidades. b) La DLP también puede originarse después de de un periodo de PLP cuando haya una disminución en los niveles de calcio. La DPL ayuda a mantener el equilibrio de las neuronas, es decir, que actúa como un proceso homeostático. . . . . . . . . . . . . . . . . . . . . .. 61. 4.3. Los cambios en la fuerza sináptica debido a la actividad postsináptica de las neuronas biológicas. Si la actividad postsináptica es alta, la curva se desplazará hacia la derecha, lo que reforzará la LTP. En la gráfica se muestra una familia de curvas en las que cada curva indica la variación de los pesos, ∆ω, con respecto a la activación de las neuronas. Para valores altos de los pesos, ω, la curva se alargara más a la derecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 4.4. La metaplasticidad consiste en el cambio del umbral de PLP en función del peso inicial de la sinapsis. Estas dos imágenes muestran gráficamente esta idea. Para valores superiores del peso inicial la curva sináptica es alargada de manera que el valor umbral PLP corresponde a los valores más altos de la actividad postsináptica. . . . . . . .. 64. 6.1. Muestra la curva ROC de los clasificadores, donde se puede apreciar claramente y una vez más la superioridad del AMMLP sobre el BP estándar, en este caso en particular. (a) Muestra la curva ROC y la AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y la AUC de 0.928 del BP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. 6.2. Tipos de nudos usados en esta investigación: a) Nudo de Borde. b) Nudo Encerrado. c) Nudo de Hoja. . . . . . . . . . . . . . . . . . . .. xii. 93.

(18) 6.3. Distribución de lo patrones usados en la etapa de entrenamiento. . .. 98. 6.4. Distribución de la clasificación de los patrones obtenida en la fase de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. 6.5. Evolución del error en la clasificación usando SFS-FFNN para cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110. xiii.

(19) Índice de Tablas 1.1. Algoritmos propuestos para mejorar el ABP entre los años 1990-2000. 11 1.2. Algoritmos propuestos para mejorar el ABP entre los años 2001-2010. 12 2.1. Funciones de activación. . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 6.1. Descripción de los atributos del cáncer de mama de la base de datos de Wisconsin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 6.2. Resultados obtenidos para AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad. . . . . . . . . . . . . . .. 76. 6.3. Parámetros de red aplicados a la WBCD. . . . . . . . . . . . . . . .. 77. 6.4. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 6.5. Matriz de confusión de la mejor clasificación obtenida por los clasificadores en una simulación. . . . . . . . . . . . . . . . . . . . . . . . .. 79. 6.6. Exactitud obtenida en la mejor simulación para cada clasificador para la clasificación del cáncer de mama. . . . . . . . . . . . . . . . . . . .. 80. 6.7. Promedio de exactitud de la clasificación del cáncer de mama obtenido por cada clasificador en 100 simulaciones. . . . . . . . . . . . . . . .. 80. 6.8. Exactitud de la clasificación obtenida por el método propuesto AMMLP y por otros clasificadores consultados en la literatura.. . . . . . . . .. 84. 6.9. Descripción de los atributos de la base de datos Aprobación de Crédito de Australia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 6.10. Resultados obtenidos por el AMMLP al aplicarlo a la base de datos ACAS, usando diferentes estructuras de red y diferentes parámetros de metaplasticidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 6.11. Parámetros de red aplicados a la ACAS. . . . . . . . . . . . . . . . .. 88. xiv.

(20) 6.12. Matrices de confusión de la mejor clasificación obtenida por los clasificadores en una simulación usando la base de datos ACAS. . . . . .. 90. 6.13. Exactitud de la clasificación obtenida por los clasificadores en la mejor simulación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90. 6.14. Promedio en la exactitud de la clasificación obtenida en 50 simulaciones para cada clasificador. . . . . . . . . . . . . . . . . . . . . . .. 90. 6.15. Exactitud de la clasificación usando la base de datos Aprobación de Crédito Australiana obtenida por el método propuesto AMMLP y por otros clasificadores consultados en la literatura. . . . . . . . . . . . . 6.16. Distribución de las muestras utilizadas en este estudio por clases.. .. 92 94. 6.17. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad usados con base de datos de nudos en la madera. . . . . . . . . . . . . . . . . . . . . . .. 97. 6.18. Matrices de confusión del mejor resultado obtenido por cada clasificador en una simulación clasificando los nudos en la madera. . . . .. 97. 6.19. Promedio de exactitud de la clasificación de nudos en la madera obtenida por los clasificadores en 50 simulaciones. . . . . . . . . . . .. 99. 6.20. Distribución de las bases de datos consideradas en este estudio. . . . 101 6.21. Distribución de los patrones usados para el entrenamiento y prueba de las redes usando diferentes bases de datos. . . . . . . . . . . . . . 101 6.22. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.23. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos del Vino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.24. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos Ionosfera. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.25. El mejor resultado obtenido por el BP estándar, para cada base de datos usada en este estudio. . . . . . . . . . . . . . . . . . . . . . . . 103 6.26. Comparación de los resultados obtenidos por el AMMLP y el BP estándar para cada base de datos. . . . . . . . . . . . . . . . . . . . . 103 xv.

(21) 6.27. Promedio de exactitud obtenido en la clasificación del AMMLP y del BP estándar en 100 simulaciones. . . . . . . . . . . . . . . . . . . . . 103 6.28. Comparación en la exactitud de la clasificación obtenida por el método propuesto AMMLP y por otros métodos usando las mismas bases de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.29. Caracterı́sticas de las bases de datos consideradas en este estudio. . . 108 6.30. Resultado de la selección de caracterı́sticas después de aplicar el método propuesto SFS-FFNN. . . . . . . . . . . . . . . . . . . . . . . . . 111 6.31. Número de patrones utilizando para el entrenamiento y prueba para cada base de datos usada en este estudio. . . . . . . . . . . . . . . . 111 6.32. Diferentes estructuras de redes neuronales aplicados para cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.33. Diferentes parámetros de red y de metaplasticidad aplicados para cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . 112 6.34. La mejor estructura de red y parámetros de metaplasticidad para cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.35. Los mejores resultados obtenidos en una simulación por el AMMLP y el BP estándar con las caracterı́sticas seleccionadas de cada base de datos por el método SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113 6.36. Promedio obtenido en 100 simulaciones por el AMMLP y el BP estándar usando las caracterı́sticas seleccionadas de cada base de datos por el método SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113 6.37. Reducción de la dimensionalidad de las bases de datos y la exactitud en la clasificación del AMMLP y de otros algoritmo propuesto usando las mismas bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 114. xvi.

(22) Lista de Abreviaturas AMMLP. Artificial Metaplasticity in a Perceptrón Multilayer.. AMP. Artificial Metaplasticity.. AMPA. Alpha-Amino-3-hydroxy-5-Methyl-4-isoxazolePropionic Acid receptor.. ANMBP. Algorithm Neighborhood Modified Backpropagation.. ANN. Artificial Neural Network.. AUC. Area Under the Curve.. BP. Backpropagation.. BPAVSAF. Backpropagation Algorithm with Varying Slope of Activation Function.. BPDC. Backpropagation-Decorrelation.. BPVS. Backpropagation with Variable Stepsize.. BPWE. Backpropagation by Weight Extrapolation.. BST. Backpropagation with Selective Training.. CBP. Constructive Backpropagation.. CC. Cascade-Correlation.. CG. Conjugate Gradient.. DDB. Dynamic of Decision Boundaries.. DS. Dynamic Self-adaptation.. DV. Descent Vector.. ELEANNE. Efficient Learning Algorithms for Neural Networks.. EmBP. Backpropagation Emocional.. ES. Expert Systems.. ESP. Error Saturation Prevention.. FFNN. Feed-forward Neural Network.. FGBP. Fuzzy General Backpropagation.. F-PM. First-Principle Model.. GA. Genetic Algorithm.. HFS. High-Frequency Stimulation.. xvii.

(23) IBLN. Incremental Backpropagation Learning Network.. IIALR. Individual Inference Adjusting Learning Rate Technique.. ISAs. Matrix Instruction Set Architectures.. LCFNN. Local Coupled Feedforward Neural Network.. LFS. Low Frequency Stimulation.. LPEBP. Learning Phase Evaluation Backpropagation Neural Network.. LR. Learning Rate.. LS-PEN. Least Squares and Penalty.. LTD. Long-Term Depression.. LTP. Long-Term Potentiation.. LUT. Look-up Table.. MBP. Matrix BackPropagation.. MF. Momentum Factor.. MLEANN. Meta-Learning Evolutionary Artificial Neural Network.. MLP. Perceptrón Multilayer.. MSE. Mean Squared Error.. NMDA. N-Metil-D-Aspartato.. PDF. Probability Density Function.. PF. Proportional Factor.. PUNNs. Product Unit Neural Networks with Exponential Weights.. RBFN. Radial Basis Function Networks.. RBPA. Robust BP Algorithm.. ROC. Receiver Operating Characteristic.. SCBP. Split-Complex Backpropagation.. SD. Steepest Descent.. SVD. Singular Value Decomposition.. TAO-RBLA. TAO-Robust Backpropagation Learning Algorithm.. Three-Term. Three-Term BP Algorithm.. BPA TS. Tabu Search.. Z-EDM. Error Density at the Origin.. xviii.

(24) Capı́tulo 1. Introducción 1.1.. Introducción. Las Redes Neuronales Artificiales, RNAs(Artificial Neural Networks, ANNs) están inspiradas en las redes neuronales biológicas del cerebro humano. La RNAs están constituidas por elementos que se comportan de forma similar a la neurona biológica en sus funciones más comunes. Estos elementos están organizados de una forma parecida a la que presenta el cerebro humano.. Las RNA al margen de “parecerse” al cerebro presentan una serie de caracterı́sticas propias del cerebro. Por ejemplo las RNA aprenden de la experiencia, generalizan de ejemplos previos a ejemplos nuevos y abstraen las caracterı́sticas principales de una serie de datos.. Muchos algoritmos o métodos de aprendizaje diseñados para RNAs, se basan en la minimización del error de la función objetivo. Durante el aprendizaje, los valores de los pesos son actualizados siguiendo una estrategia que tiende a reducir al mı́nimo el error final del funcionamiento de la red, entre esos algoritmos uno de los más usados es el Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP), sin embargo, el mencionado algoritmo tiene algunas limitaciones que le impiden alcanzar un nivel óptimo de eficiencia. El aprendizaje tarda con frecuencia un largo tiempo en converger y puede quedar fácilmente atrapado en mı́nimos locales sin lograr alcanzar el mı́nimo global [1, 2, 3]. Para resolver algunos de los inconvenientes antes mencionados del ABP muchos investigadores desarrollan continuamente modificaciones o variantes de este algoritmo. Una buena parte de estas modificaciones tratan de resolver el problema de su lenta convergencia,. 1.

(25) 1.1 Introducción. mientras que otras se centran en conseguir una mejor generalización del mencionado algoritmo. Sin embargo, en general ninguna de las modificaciones es capaz de ofrecer un rendimiento satisfactorio para todos los problemas. La gran mayorı́a de estas modificaciones por lo general implican más cálculos y más procesamiento por iteración ası́ como también requieren de la elección a priori de algunos parámetros adicionales [3]. Por estos motivos la búsqueda de un enfoque para acelerar el proceso de convergencia y/o para la mejora del rendimiento general del entrenamiento del ABP continua siendo el centro de investigación para muchos investigadores.. En esta tesis, propone y se desarrolla un modelo neuronal basado en la propiedad biológica de la Metaplasticidad con la finalidad de mejorar los problemas de lentitud, convergencia y exactitud del ABP. La Metaplasticidad es un concepto biológico ampliamente conocido en áreas como: Biologı́a, Fisiologı́a, Ciencia Médica, Neurologı́a, Neurociencia y Psicologı́a entre otros, y es motivo de continuas investigaciones [4, 5, 6, 7, 8]. Una de las ventajas del modelo propuesto de la Metaplasticidad Artificial (Artificial Metpalasticity, AMP) es que, se puede implementar en cualquier RNAs, en esta tesis, se implementará en un Perceptrón Multicapa (Multilayers Perceptron, MLP). El modelo propuesto para este estudio a partir de ahora se llamará Metaplasticidad Artificial en un Percentrón Multicapa, (Artificial Metaplasticity Multilayer on Perceptron, AMMLP).. El modelado de la AMP se realizará en la fase de entrenamiento de las RNAs. De todos los modelos AMP probados en la literatura hasta ahora, el más eficiente desde el punto de vista del aprendizaje y el rendimiento es el que conecta la Metaplasticidad con la teorı́a de la información de Shannon, es decir, que durante la fase de entrenamiento, el algoritmo AMMLP dará más relevancia a los patrones menos frecuentes y sustraerá importancia a los patrones más frecuentes, asegurando ası́ un entrenamiento más eficaz, mientras se mantiene el rendimiento del MLP. Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-Cedeño [10, 11, 12] han introducido y modelado la propiedad biológica de la Metaplasticidad en el campo de las RNA, obteniendo excelentes resultados.. 2.

(26) 1.2 Antecedentes. 1.2.. Antecedentes. Como se comentó anteriormente el Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP), para el entrenamiento de las Redes Neuronales Artificiales, RNAs, ha sido usado con éxito en problemas reales para la clasificación de patrones en Medicina, Bioinformática, Telecomunicaciones, Banca, Predicciones Climatológicas, entre otros [10, 13, 14, 15]. Sin embargo a pesar del éxito obtenido este algoritmo tiene algunas dificultades. Debido a estas dificultades el algoritmo de retropropagación ha sido uno de los algoritmos que más modificaciones ha sufrido desde su creación. Para esta investigación se ha tenido que hacer una selección de los algoritmos propuestos para mejorar al ABP del año 1990-2010.. En 1990, Leonard & Kramer, desarrollaron un método basado en el Gradiente Conjugado (Conjugate Gradient, CG), dicho método es una combinación de lotes de ejemplos y de búsqueda lineal con el gradiente descendiente en la dirección conjugada. Leonard & Kramer demostraron que el método del gradiente conjugado puede ser visto con un ABP por lotes con ajuste dinámico de la tasa de aprendizaje y del momento [16].. En 1991, Lee & Weidman, propusieron que para mejorar el entrenamiento de las RNAs, necesariamente se debı́a hacer uso de los Sistemas Expertos (Expert Systems, ES). Lee & Weidman concluyeron que el uso de un sistema experto para supervisar el entrenamiento es mucho más eficiente que realizar un entrenamiento de las RNAs per se [17]. Kim & Ra, formularon un algoritmo llamado Dynamic of Decision Boundaries, DDB, para elegir los valores iniciales de los pesos, los cuales son obtenidos de la regla del delta generalizada, con lo cual se mejora la estabilidad y la velocidad del proceso de aprendizaje mediante la eliminación de los efectos retraso y convergencia del ABP [18].. En 1992, Scalero & Tepedelenlioglu, desarrollaron un algoritmo para mejorar el ABP basado en la minimización del Error Cuadrático Medio, ECM (Mean Squared Error, MSE) entre la salida deseada y la salida real con respecto a la suma de las salidas (insumos para las no linealidades). Esto contrasta con el ABP estándar que minimiza el error cuadrático medio con respecto a los pesos [19]. Karayiannis & 3.

(27) 1.2 Antecedentes. Venetsanopoulos, propusieron un criterio generalizado para el entrenamiento de las Redes Neuronales Progresivas (Feed-forward Neuronal Network, FFNN) mono capa y de multiples capas, basado en la regla del delta. Estos algoritmos fueron llamados Efficient Learning Algorithms for Neural Networks, ELEANNE [20].. En 1993, Anand et al., analizaron el problema de la lenta convergencia del ABP para problemas de dos clases con conjuntos de entrenamientos desbalanceados. Anand et al., propusieron un algoritmo llamado Descent Vector, DV, que calcula un vector de descenso, que apunta en una dirección de declive para ambas clases. Por lo tanto, los errores de red, tanto para las clases dominantes y subordinadas disminuyen por el movimiento de los pesos en la dirección del vector descendiente [21].. En. 1994,. Riedmiller. et. al.,. hizo. una. revisión. general. de. varios. algoritmos propuestos para mejorar el ABP. Todos los enfoques descritos en ese artı́culo hacen uso de alguna manera de la derivada de primer orden parcial de cada uno de peso con respecto al error general de la red [22]. Chen & Jain, propusieron un algoritmo llamado Robust BP Algorithm, RBPA. El RBBPA es resistente a los efectos de ruido y es capaz de rechazar el grueso de los errores durante el proceso de aproximación. Según Riedmiller et al., el mencionado algoritmo presenta 3 claras ventajas sobre el ABP estándar: a) El RBBPA se aproxima a una correlación subyacente en vez de interpolar las muestras de entrenamiento, b) es robusto frente a errores graves, c) la tasa de convergencia es mejorada ya que suprime la influencia de las muestras incorrectas [23].. En 1995, Alpsan et al., hicieron un estudio comparativo de diferentes métodos propuestos para mejorar el ABP aplicados a problemas médicos reales, basado en métodos heurı́sticos y de optimización. Alpsan et al., concluyeron que ABP estándar puede ser suficientemente rápido o puede tener una buena generalización dependiendo del tipo de problema. En el caso particular de los problemas médicos se requiere por su naturaleza, de una alta generalización con una tolerancia de error mı́nima, para que el sistema sea lo más confiable posible [24].. En 1996, Solomon & Van-Hemmen, propusieron un nuevo algoritmo genético, 4.

(28) 1.2 Antecedentes. basado en la Auto-Adaptación Dinámica (Dynamic Self-Adaptation, DS) para mejorar y acelerar el aprendizaje del ABP. El algoritmo DS, toma el valor de la Tasa de Aprendizaje (Learning Rate, LR) del paso previo, lo aumenta y disminuye ligeramente, evalúa la función de coste para los nuevos valores de la tasa de aprendizaje, y se elige el valor más bajo para la función de coste [25]. Fu et al., presentaron un nuevo método de aprendizaje incremental para reconocimientos de patrones, llamado Incremental Backpropagation Learning Network, IBPLN. El IBPLN emplea una modificación limitada de los pesos y una adaptación estructural de las reglas de aprendizaje, y aplica el conocimiento inicial para limitar el proceso de aprendizaje [26].. En 1997, Magoulas et al., desarrollaron un método llamado Backpropagation with Variable Stepsize, BPVS. El método BPVS se basa en una modificación determinista del Descenso más Rápido (steepest descent, SD) que permite un tamaño de paso variable, como consecuencia de la minimización de la función objetivo y de la observación de la trayectoria en el espacio de pesos. Magoulas et al., obtuvieron buenos resultados en diferentes tipos de problemas [27]. Yam et al., formularon un enfoque novedoso basado en el método de Mı́nimos Cuadrados (Least Squares, LS) para calcular los pesos iniciales óptimos de las RNAs. Una vez determinados los pesos iniciales óptimos, el error inicial es sustancialmente menor y por lo tanto el número de iteraciones necesarias para alcanzar el criterio de error establecido se reduce [28].. En 1998, Sexton et al., demostraron que las limitaciones impuestas por algunos investigadores en el espacio de búsqueda o la reestructuración de la arquitectura de las RNAs, son innecesarias sı́ se utiliza una arquitectura inicial suficientemente compleja y un adecuado algoritmo de búsqueda global. Sexton et al., utilizaron el Algoritmo Genético (Genetic Algorithm, GA), a fin de lograr una mejor generalización del ABP [29]. El mismo año Sexton et al., presentaron otro algoritmo, y al igual que en el artı́culo anterior insisten en que los algoritmos basados en búsqueda global son los mejores para la optimización de las RNA. En esta oportunidad aplicaron una versión extendida del algoritmo Tabu Search, TS, como una posible alternativa a la problemática del ABP [30].. 5.

(29) 1.2 Antecedentes. En 1999, Kamarthi y Pittne, propusieron una mejora del ABP para entrenamiento de las redes feed-forward. Esté nuevo método es conocido como Backpropagation by weight extrapolation, BPWE. El BPWE está basado en el concepto de la extrapolación de pesos calculados por la red. Extrapolando los pesos, es posible economizar en el número de épocas requeridas para el aprendizaje del BP antes de alcanzar un vector de peso aceptable [31]. Lehtokangas presentó un método llamado Constructive Backpropagation, CBP, este algoritmo esta inspirado en el aprendizaje de Correlación en Cascada (CC). El algoritmo CBP comienza con una red pequeña y luego se van agregando unidades ocultas y pesos hasta encontrar una solución satisfactoria [32]. Cho y Chow, formularon un algoritmo de aprendizaje global hı́brido, rápido y robusto, basado en el método de mı́nimos cuadrados y en el método de búsqueda con penalización (Least Squares and Penalty, LS-PEN). El método LS se emplea para determinar los pesos conectados entre la capa de salida y la capa oculta. El método de optimización conocido como penalización es utilizado para evaluar los pesos de entre la capa oculta y la capa de entrada [33]. Ampazisa et al., propusieron un modelo dinámico del sistema, que permite acelerar el aprendizaje, reduciendo al mı́nimo el tiempo de entrenamiento gastado en la vecindad de los mı́nimos temporales. Para ello utilizaron métodos de optimización con restricciones que logran la minimización simultánea de la función de coste y la maximización de lo valores más grandes de la matriz jacobiana, de tal manera que evita que la red pueda quedar en un mı́nimo temporal y por lo tanto, el tiempo total de entrenamiento es reducido significativamente [34].. En 2000, Yam & Chow, desarrollaron un algoritmo para determinar los pesos iniciales óptimos de las redes feedforward basado en la desigualdad de Cauchy y un método algebraico lineal. En el caso de que el sistema este sobredeterminado, usando la factorización QR se obtiene una solución que es la mejor aproximación en el sentido de los mı́nimos cuadrados. En el caso de un sistema indeterminado. la factorización QR calcula la solución de norma mı́nima. Según los autores este método garantiza que los resultados de las neuronas se encuentran en la región activa y aumenta la velocidad de convergencia [35]. Chaudhuri & Bhattacharya, propusieron un método para acelerar la velocidad de convergencia del BPA, basado en una selección inteligente de las muestras de entrenamiento. Este método de aceleración no implica ninguna modificación del algoritmo de BP original. El mencionado método funciona bien en los casos complicados, donde las clases no son fácilmente separables, es decir 6.

(30) 1.2 Antecedentes. que, si las clases se superponen una con otra, un conjunto de entrenamiento formado acorde con el método propuesto puede mejorar el rendimiento considerablemente de un MLP [3].. En 2001, Lee et al., propusieron un método alternativo al gradiente descendiente llamado Error Saturation Prevention, ESP, para prevenir el Error de Saturación (ES) en los nodos de la capa de salida, también aplicaron este método a los nodos de las capas ocultas para ajustar los términos de aprendizaje. El ESP, mejora la eficiencia del aprendizaje y además mantiene el significado semántico de la función de MSE utilizada para justificar la evaluación de criterio de error [36].. En 2002, Mandische, propuso un método aprendizaje evolutivo a través de Estrategias de Evolución (Evolution Strategies, ES) como una alternativa a las técnicas basadas en el gradiente para el entrenamiento de las RNA. Una ventaja de este algoritmo sobre gradiente es que puede ser utilizado en redes con funciones de activación diferenciable [37]. Hoo et al., propusieron utilizar la información obtenida del First-Principle Model, F-PM, para dar un sentido de “dirección” a la estimación del modelo de la RNA. Esto se logra mediante la modificación de la función objetivo a fin de incluir un término adicional que es la diferencia entre la derivada de los resultados, estimado por la red neuronal, y la de las salidas del modelo de primer principio durante la fase de entrenamiento [38].. En 2003, Eom et al., propusieron método llamado Fuzzy General Backpropagation, FGBP, para mejorar el el rendimiento del ABP mediante un sistema de lógica difusa que de manera automática ajusta el parámetro de ganancia de la función de activación, basado en un conjunto de reglas heurı́sticas del dominio del problema determinado a través del estudio de una simulación preliminar [39]. Zweiri et al., a los parámetros tradicionales de la tasa de aprendizaje y al factor de momentum añadieron un nuevo parámetro, llamado Factor Proporcional (Proportional Factor, PF). A este algoritmo con tres parámetros lo llamaron algoritmo de BP de tres términos (three-term BP algorithm). El mencionado algoritmo es más robusto a la elección de pesos iniciales, especialmente cuando se seleccionan los valores relativamente altos para los parámetros de aprendizaje, además este algoritmo es aplicable a cualquier red con diferentes funciones de activación [40]. 7.

(31) 1.2 Antecedentes. En 2004, Abraham, formuló un algoritmo basado en los Algoritmos Evolutivos, llamado Meta-Learning Evolutionary Artificial Neural Network, MLEANN, para la optimización adaptativa de las RNA, donde la arquitectura, la función de activación, los pesos de las conexiones, el algoritmo de aprendizaje y sus parámetros se adaptan de acuerdo con el problema [41]. Wang et al., propusieron un algoritmo en que cada patrón de entrenamiento tiene sus propias funciones de activación de las neuronas en la capa oculta. Las funciones de activación se ajustan por la adaptación de los parámetros de ganancia durante el proceso de aprendizaje. Estos ajustes se hacen con el fin de evitar que la red quede atrapada en un mı́nimo local causado por la saturación de las neuronas en la capa oculta. [42]. Mohammad y Paves̆ié, formularon una mejora del ABP tradicional llamado Backpropagation with selective training, BST y lo aplicaron al entrenamiento de una Red de Función de Base Radial (Radial Basis Function Networks, RBFN) mejorando el rendimiento de la red RBF sustancialmente, en términos de velocidad de convergencia y el error de reconocimiento. Además el BST resuelve tres problemas del ABP: el sobreentrenamiento, la convergencia lenta al final del entrenamiento, y la incapacidad de aprender con un porcentaje pequeño de patrones [43].. En 2005, Pernı́a-Espinoza et al., propusieron un algoritmo para mejorar el entrenamiento del ABP llamado TAO-Robust Backpropagation Learning Algorithm. El mencionado algoritmo utiliza un estimador de escala, que es variable y depende de una función Huber de los errores obtenidos en cada época. Además, con este enfoque se consigue dos propiedades importantes: la robustez frente a valores extremos de la data con un punto de ruptura elevada y una alta eficiencia en el modelo normal [44].. En 2006, Steil, propuso un algoritmo llamado Backpropagation-Decorrelation, BPDC, para probar y supervisar la estabilidad para grandes redes donde solo la capa de salida es adaptada. El BPDC combina tres principios básicos: (i) un paso de retropropagación de los errores, (ii) el uso de la memoria temporal en la dinámica se adapta basada en decorrelación de las activaciones, and (iii) el empleo de una reserva de neuronas interior que son no adaptativas para reducir la complejidad [45]. Behera et al., formularon dos nuevos algoritmos de aprendizaje LF I y LF II para la actualización de los pesos de las redes feedforward basados en la función. 8.

(32) 1.2 Antecedentes. de Lyapunov. La contribución clave de esa investigación fue mostrar el paralelismo existente entre los algoritmos propuestos LF I y II y ABP. Se demuestra que los algoritmos propuestos tienen la misma estructura que el ABP con la diferencia de que la tasa de aprendizaje en el ABP es fijo y en los algoritmos se sustituye por una tasa de aprendizaje adaptativo. [46].. En 2007, Wang et al., propusieron un modelo interactivo para mejorar el rendimiento del aprendizaje de ABP. El modelo combina con éxito una nueva técnica de ajustar la tasa de aprendizaje llamada Individual Inference Adjusting Learning Rate technique, IIALR y una nueva manera de actualizar la frecuencia de los pesos, llamada The Batch mode of weight updating frequency, BOWUF[47].. En 2008, Khashman, presentó una modificación del algoritmo de aprendizaje del BP, llamado Backpropagation Emocional, EmBP. El algoritmo EmBP, está basado en dos emociones que el autor considera que pueden afectar al aprendizaje, como lo es la ansiedad y la confianza. Cuando se aprende una nueva tarea, el nivel de ansiedad es alto al principio y el nivel de confianza es baja. Después de un tiempo, la práctica y la retroalimentación positiva, el nivel de ansiedad disminuye mientras aumenta el nivel de confianza. Por lo tanto el EmBP tiene “pesos emocionales” que son actualizando usando los dos parámetros emocionales mencionados anteriormente [48]. Yang et al., propusieron que el rango de los valores iniciales de los pesos cuando se entrena un algoritmo de BP con División-Compleja (Split-Complex Backpropagation, SCBP) deberı́a ser mayor que el de las cantidades de ajuste. Aplicando este criterio se puede reducir el desajuste de los pesos y de las bı́as durante el entrenamiento, además evita la dependencia del rendimiento del SCBP relacionada con los pesos iniciales [49]. Zhang et al., para mejorar la eficiencia de las tradicionales redes feed-forward propusieron un algoritmo llamado Product Unit Neural Networks with Exponential Weights, PUNNs [50]. Silva et al., formularon una nueva función de error EExp , inspirada en el Error Density at the Origin, Z-EDM, que es capaz de simular el comportamiento de otras funciones de error por el ajuste de un solo parámetro con valores reales [51]. Soliman & Mohamed, propusieron una versión modificada de BP sobre la base de la multiplicación de matrices para el procesamiento parallelo. Para ello implementaron la Matrix BackPropagation, MBP usando un conjunto de arquitecturas de instrucciones de matriz (matrix Instruction Set Architectures, ISAs). 9.

(33) 1.2 Antecedentes. escalar y un conjunto de arquitecturas de instrucciones de matriz vectorial [52].. En 2009, Cheng & Park, desarrollaron un algoritmo para mejorar el rendimiento del ABP, llamado Learning Phase Evaluation Backpropagation neural network, LPEBP. El LPEBP divide el proceso de entrenamiento en muchas fases de aprendizaje y evalúa los efectos después de cada fase de aprendizaje. Además aplicaron la técnica de Descomposición del Valor Singular (Singular Value Decomposition, SVD) para reducir la dimensión y las construcción semántica de los términos [53]. Kathirvalavakumar & Jeyaseeli, presentaron un algoritmo de entrenamiento (Algorithm Neighborhood Modified Backpropagation, ANMBP) para RNAs con una capa oculta, basado en la vecindad de la estructura de la red, para sustituir los parámetros de aprendizaje fijos con parámetros de aprendizaje adaptativo. El ANMBP es eficiente en términos del error de entrenamiento, de la memoria y en el tiempo de entrenamiento [54]. Bai et al., formularon un algoritmo para mejorar el ABP, llamado BP algorithm with varying slope of activation function, BPAVSAF, basado en la variación de la pendiente de la función de activación con diferentes tasas de aprendizaje. Los resultados obtenidos demuestran que el ABP clásico puede obtener un buen rendimiento tanto en la fase de entrenamiento como en la de test con solo el ajuste de dos diferentes tasa de aprendizaje y un parámetro de la pendiente de la función de activación de la salida [55].. Finalmente en 2010, Sun, formuló un algoritmo llamado Local Coupled Feedforward Neural Network, LCFNN, donde a cada nodo oculto se asigna una dirección en el espacio de entrada, y cada entrada activa sólo los nodos cercanos a él. Además la dimensionalidad de búsqueda en el espacio durante el entrenamiento del LCFNN no aumenta con el incremento del tamaño de la red y el coste de cálculo de cada muestra de aprendizaje en el entrenamiento y en el proceso de trabajo del LCFNN no aumenta con el incremento del tamaño de la red [56].. Para resumir, en la Tabla 1.1 se presentan todos los algoritmos propuestos para mejorar el ABP, con sus autores, el año y el nombre de la publicación en el perı́odo 1990-2000. En la tabla 1.2. se presenta la misma información, pero del perı́odo 2001-2010.. 10.

(34) 1.2 Antecedentes Autor(s), Año. Método. Publicación. Leonard & Kramer, 1990. CG. Computers & Chemical Engineering.. Lee & Weidman, 1991. SE. Expert Systems with Applications.. Kim & Ra, 1991. DDB. IEEE, IJCNN-91.. Scalero & Tepedelenlioglu, 1992. FBPA. Signal Processing, IEEE Transactions on.. Karayiannis & Venetsanopoulos, 1992. ELEANNE. Circuits and Systems II: Analog and Digital. Anand et al., 1993. VD. Signal Processing, IEEE Transactions on.. Riedmiller et al., 1994. Review. Computer Standards & Interfaces.. Alpsan et al., 1995. Diferentes Técnicas. Neural Networks.. Solomon & van-Hemmen, 1996. DS. Neural Networks.. Fu et al., 1996. IBPLN. Signal Processing, IEEE Transactions on.. Magoulas et al., 1997. BPVS. Neural Networks.. Yam et al., 1997. LS. Neurocomputing.. Sexton et al., 1998. GA. Decision Support Systems.. Sexton et al., 1998. TS. European Journal of Operational Research.. Kamarthi & Pittne, 1999. BPWE. Neural Networks.. Lehtokangas, 1999. CBP. Neural Networks.. Cho & Chow, 1999. LS-PEN. Neurocomputing.. Ampazisa et al., 1999. Sistema dinámico. Neural Networks.. Yam & Chow, 2000. Cauchy’s - LA method. Neurocomputing.. Chaudhuri & Bhattacharya, 2000. STS. Neurocomputing.. Signal Processing, IEEE Transactions on.. Tabla 1.1: Algoritmos propuestos para mejorar el ABP entre los años 1990-2000.. 11.

(35) 1.2 Antecedentes Autor(s), Año. Método. Publicación. Lee et al., 2001. ESP. Mandische, 2002. ES. Neurocomputing.. Hoo et al., 2002. F-PM. Journal of Process Control.. Eom et al., 2003. FGBP. Neurocomputing.. Zweiri et al., 2003. PF. Neurocomputing.. Neurocomputing.. Abraham, 2004. MLEANN. Neurocomputing.. Wang et al., 2004. IAF. Neurocomputing.. Mohammad & Paves̆ié, 2004. BST. Neurocomputing.. Pernı́a-Espinoza et al., 2005. TAO-RBLA. Neural Networks.. Steil, 2006. BPDC. Neurocomputing.. Behera et al., 2006. LF I-II. Signal Processing, IEEE Transactions on.. Wang et al., 2007. IIALR-BOWUF. Automation in Construction.. Khashman, 2008. EmBP. Signal Processing, IEEE Transactions on.. Yang et al., 2008. SCBP. Signal Processing, IEEE Transactions on.. Zhang et al., 2008. PUNNs. Neurocomputing.. Silva et al., 2008. Z-EDM. Neural Networks.. Soliman & Mohamed, 2008. MBP. Journal of Parallel and Distributed Computing.. Cheng & Park, 2009. LPEBP. Expert Systems with Applications.. Kathirvalavakumar & Jeyaseeli, 2009. ANMBP. Neurocomputing.. Bai et al., 2009. BPAVSAF. Chaos, Solitons & Fractals.. Sun, 2010. LCFNN. Neural Networks.. Tabla 1.2: Algoritmos propuestos para mejorar el ABP entre los años 2001-2010.. 12.

(36) 1.3 Motivación. 1.3.. Motivación. La principal motivación de esta investigación es mejorar los problemas de lentitud, convergencia y de exactitud en la clasificación del Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP). Los inconvenientes del mencionado algoritmo han dado lugar a un gran número de investigaciones tratando de superar estos problemas. Las investigaciones realizadas hasta los momentos se podrı́an organizar en dos categorı́as. La primera categorı́a incluye el desarrollo de técnicas heurı́sticas, basadas en el estudio de las propiedades de rendimiento distintivas del ABP en general. Estas técnicas heurı́sticas incluyen ideas tales como la variación de la tasa de aprendizaje, usando momentum, el ajuste de la ganancia de la función de activación, y la optimización de la topologı́a de la red neuronal. La otra categorı́a de investigación ha usado, aplicado y desarrollado algoritmos de optimización cada vez más sofisticados, basados en técnicas estándar de optimización numérica para mejorar el aprendizaje del ABP. Sin embargo, a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavı́a no existe una solución optima, que se pueda aplicar a todos los problemas. En está Tesis Doctoral se propone una alternativa para mejorar algunas de estas deficiencias. El algoritmo propuesto, está basado en la Metaplasticidad Artificial y es aplicado a un Perceptrón Multicapa (AMMLP). Estamos conciente de que el algoritmo propuesto AMMLP, no resolverá por completo las limitaciones antes mencionadas del ABP, pero si estamos convencidos de que será un alternativa muy interesante, fácil de implementar y de aplicar, que reducirá el tiempo de cómputo y el número de iteraciones durante la fase de entrenamiento, con lo que conseguirá un entrenamiento mucho más eficiente y con muy alto nivel de exactitud en la clasificación. La segunda motivación es aplicar y verificar la utilidad práctica del algoritmo propuesto de la Metaplasticidad Artificial en un Perceptrón Multicapas (AMMLP). En este sentido el AMMLP se utilizará para la clasificación de objetos en señales en 1-D y 2-D y para ello se usara bases de datos estándar de diferentes ámbitos que permitan comprobar el rendimiento, la rapidez de convergencia y la exactitud del algoritmo propuesto. 13.

(37) 1.4 Objetivos. 1.4.. Objetivos. 1.4.1.. Objetivo General. Aplicar y optimizar el algoritmo basado en la Metaplasticidad Artificial en un Perceptrón Multicapa (AMMLP) para la clasificación de objetos en señales 1-D y 2D. Mejorar la lentitud y convergencia del Algoritmo de Retropropagación, y además obtener un alto nivel de exactitud en la clasificación.. 1.4.2.. Objetivos Especı́ficos. Seguidamente se indican los objetivos especı́ficos que se formularon para esta investigación y que sustentan esta tesis.. 1. Definir la metaplasticidad biológica. Relacionar la metaplasticidad con la plasticidad, la plasticidad intrı́nseca, la memoria y el aprendizaje.. 2. Explicar e implementar el modelo neuronal basado de la Metaplasticidad Artificial en un Perceptrón Multicapas (AMMLP).. 3. Optimizar en la medida de lo posible los parámetros relacionados el modelo de la Metaplasticidad Artificial propuesto, con la finalidad de hacer más eficiente el mencionado algoritmo.. 4. Aplicar la Metaplasticidad Artificial a diferentes problemas de alto impacto relacionados con la clasificación de patrones, para comprobar el rendimiento y la exactitud en la clasificación del algoritmo AMMLP.. 5. Comparar las prestaciones del modelo neuronal basado en la Metaplasticidad para la clasificación de objetos en señales 1-D y 2-D con el Algoritmo de Retropropagación tradicional y con otros algoritmos aplicados recientemente a los mismos problemas.. 14.

(38) 1.5 Estructura de la Tesis. 1.5.. Estructura de la Tesis. Se ofrece a continuación un pequeño resumen de lo que se discutirá en cada uno de los 8 capı́tulos, incluido éste que conforman este trabajo. Los primeros 4 capı́tulos tienen carácter teórico e informativo y los restantes presentan un enfoque práctico del método propuesto.. En el presente Capı́tulo 1, se hace una pequeña introducción del tema a tratar, se presentan los objetivos que se consideraron para la elaboración de la presente investigación, ası́ como se justifica la idoneidad de este estudio, además se muestra el estado del arte de esta investigación.. En el Capı́tulo 2 se presenta una introducción general a las Redes Neuronales Biológicas y Artificiales, se definen ambas redes, se mencionan las diferentes tipos de redes neuronales artificiales, los aprendizajes y las arquitecturas bajo las cuales funcionan las mencionadas redes.. En el Capı́tulo 3 se describirá en detalle el Perceptrón Monocapa y Multicapa, debido a que el modelo propuesto de la Metaplasticidad Artificial se implementará en un Perceptrón Multicapa. De tal manera que veremos sus caracterı́sticas, limitaciones y el algoritmo tı́pico usado para entrenar a este tipo de red (Algoritmo de Retropropagación).. En el Capı́tulo 4 se explicará la propiedad biológica de la Metaplasticidad, conceptos, funciones, mecanismos que la generan. También se definirán y explicarán otras propiedades biológicas que están relacionadas con la Metaplasticidad, como por ejemplo la Plasticidad y la Plasticidad Intrı́nseca que permitirá entender mejor la Metaplasticidad biológica y además facilitará comprender el modelo neuronal basado en la Metaplasticidad Artificial en un Perceptrón Multicapa (AMMLP) propuesto es esta tesis.. 15.

(39) 1.5 Estructura de la Tesis. Los capı́tulos anteriores son básicamente la formalización de conceptos e ideas que permitirán comprender los siguientes capı́tulos. Los capı́tulos que se describen a continuación constituyen el aporte original de esta tesis:. En el Capı́tulo 5 se presenta el modelo propuesto de la Metaplasticidad Artificial, se muestra la relación existente entre la metaplasticidad artificial y la teorı́a de la información de Shannon, se plantea la sustentación matemática del modelo, se implementa el modelo AMMLP, se describe el algoritmo AMMLP, ası́ como también se presenta la selección de la mejor estructura de red neuronal para el modelo propuesto.. En el Capı́tulo 6 se presentan los experimentos y los resultados obtenidos utilizando el AMMLP descrito en el capı́tulo anterior. El AMMLP se ha aplicado a cinco diferentes problemas de alto impacto en áreas como la Médica, Finanzas e Industrial y que estan relacionados con la clasificación de patrones.. En el Capı́tulo 7 se presentan las principales conclusiones originadas de los aportes realizados y de los resultados experimentales obtenidos, y una breve discusión de los mismos. En el Capı́tulo 8 se presentan las contribuciones originales de esta tesis, ası́ como también se presenta una lista detallada de las lı́neas futuras de investigación que se derivan a partir de los trabajos que se han desarrollando y descrito en esta tesis.. 16.

(40) Capı́tulo 2. Redes Neuronales Artificiales El cerebro es un procesador de información con unas caracterı́sticas muy notables: es capaz de procesar a gran velocidad grandes cantidades de información procedentes de los sentidos, combinarla o compararla con la información almacenada y dar respuestas adecuadas incluso en situaciones nuevas. Dentro de todas las capacidades del cerebro humano la más impresionante de todas ellas es su capacidad de aprender a representar la información necesaria para desarrollar el resto de sus actividades propias sin instrucciones explı́citas para ello.. Aunque todavı́a se ignora mucho sobre la forma en que el cerebro aprende a procesar la información, se han desarrollado modelos que tratan de imitar este proceso. Estos modelos reciben el nombre de Redes Neuronales Artificiales, RNA (Artificial Neural Network, ANN). En la siguiente subsección (2.0.1) se hablará de las neuronas biológicas y luego, en forma amplia y detallada de las RNA (subsección 2.0.2).. 2.1.. Neuronas Biológicas. Como la neurona biológica, es la célula básica del sistema nervioso, se analizará brevemente su funcionamiento para comprender el de las neuronas artificiales y la analogı́a entre las RNAs y redes biológicas.. 17.

(41) 2.1 Neuronas Biológicas. El cerebro humano continuamente recibe señales de entrada de muchas fuentes y las procesa a manera de crear una apropiada respuesta de salida. Nuestros cerebros cuentan con millones de neuronas que se interconectan para elaborar “Redes Neuronales”. Estas redes ejecutan los millones de instrucciones necesarias para mantener una vida normal.. La investigación detallada de la estructura interna de las células nerviosas, especialmente después de la invención del microscopio electrónico, ha revelado que todas las neuronas están constituidas por las mismas partes básicas, independientemente de su tamaño y forma. Estas neuronas tienen tres componentes principales, las dendritas, el cuerpo de la célula o soma, y el axón, en la Figura 2.1 se puede apreciar la estructura básica de una neurona biológica.. Cuerpo celular o soma. Nucleo. Axon. Terminal del Axon. Dendrita Sinapsis. Figura 2.1: Estructura básica de una neurona biológica.. Las dendritas forman una estructura de filamentos muy fina que rodea el cuerpo de la neurona. El axón es un tubo largo y delgado que se ramifica en su extremo en pequeños bulbos finales que casi tocan las dendritas de las células vecinas. Del extremo del axón nacen otras ramificaciones, mediante las cuales la neurona se comunica con otras neuronas, produciéndose la sinapsis. Las neuronas, a través de sus dendritas y axón, reciben señales eléctricas, pequeños impulsos provenientes de otras neuronas o de ellas mismas si son neuronas externas. Ésta integra de alguna 18.

(42) 2.1 Neuronas Biológicas. forma todas las señales que le llegan, y puede excitarse, provocando un impulso que le será transmitido a otras neuronas, o inhibirse, lo que atenuará el impulso recibido o simplemente lo anulará. La neurona recibe entonces a cada instante señales tanto inhibidoras como excitadoras, provenientes de todas sus sinapsis. La integración de los efectos excitadores con los inhibidores (podrı́a entenderse como la suma de sus entradas) determina si la neurona será o no estimulada, es decir, si emitirá un impulso, o un tren de ellos, a que velocidad, o si no lo emitirá.. El aprendizaje se basa en las relaciones entre millones de neuronas del cerebro. Una vez que van conociendo hechos, las neuronas van relacionándose entre sı́ a través de sus sinapsis, haciéndose éstas inhibidoras o excitadoras de acuerdo con el estı́mulo determinado, y produciendo entonces respuestas frente a determinados hechos o situaciones. Van “conociendo” hechos porque, ante una determinada situación, son ciertas neuronas externas las que reciben el primer estı́mulo, las que de acuerdo con la fuerza y localización de éste, se activarán o no, comenzando una larga cadena absolutamente relacionada entre millones de neuronas, las que llegarán al cerebro para producir una determinada respuesta. Si las neuronas externas que recibieron el primer estı́mulo son otras, su contacto con la segunda “capa” de neuronas será diferente a la respuesta anterior, o bien si la intensidad de la excitación fue distinta, producirán diferentes reacciones.. Algunas de las estructuras neuronales son determinadas en el nacimiento, otra parte es desarrollada a través del aprendizaje, proceso en que nuevas conexiones neuronales son realizadas y otras se pierden por completo.. Esto quiere decir que, las estructuras neuronales van cambiando durante toda la vida, estos cambios consisten en el refuerzo o debilitamiento de las uniones sinápticas. De la sinapsis, de sus procesos, funcionamiento, de su relación con el aprendizaje y de su vinculación con la Metaplasticidad se hablará con detenimiento en el Capı́tulo 4 de esta tesis.. 19.

(43) 2.2 Redes Neuronales Artificiales. 2.2.. Redes Neuronales Artificiales. 2.2.1.. Definición de Red Neuronal. Darpa, define una red neuronal como un sistema compuesto de muchos elementos simples de procesamiento los cuales operan en paralelo y cuya función es determinada por la estructura de la red, el peso de las conexiones; realizándose el procesamiento en cada uno de los nodos o elementos de computo [57].. Según Haykin, una red neuronal es un procesador paralelo masivamente distribuido que tiene una facilidad natural para el almacenamiento de conocimiento obtenido de la experiencia para luego hacerlo utilizable. Se parece al cerebro en dos aspectos [2]: 1.. El conocimiento es obtenido por la red a través de un proceso de aprendizaje.. 2.. Las conexiones interneuronales conocidas como pesos sinápticos son utilizadas para almacenar dicho conocimiento. Kohonen, las define como redes de elementos simples (usualmente adaptativos). masivamente interconectados en paralelo y con organización jerárquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico [58].. En sı́ntesis se puede considerar que una Red Neuronal Artificial es un sistema de procesamiento de información que tiene ciertas caracterı́sticas de comportamiento en común con las redes neuronales biológicas. Las redes neuronales artificiales han sido desarrolladas como generalizaciones de modelos matemáticos del conocimiento humano o de la biologı́a neuronal, con base en los siguientes aspectos: 1.. El procesamiento de información se realiza en muchos elementos simples llamados neuronas.. 2.. Las señales son pasadas entre neuronas a través de enlaces de conexión.. 3.. Cada enlace de conexión tiene un peso asociado, el cual, en una red neuronal tı́pica, multiplica la señal transmitida. 20.

(44) 2.2 Redes Neuronales Artificiales. 4.. Cada neurona aplica una función de activación (usualmente no lineal) a las entradas de la red (suma de las señales de entrada pesadas) para determinar su señal de salida. Las RNAs han sido aplicadas en un gran número de problemas reales de com-. plejidad considerable. Su más importante ventaja es la de resolver problemas que son muy complejos para tecnologı́as convencionales, problemas que no tienen una solución determinı́stica o para los cuales una solución de este tipo es muy complicado encontrarla. En general, por ser una abstracción del cerebro biológico, las RNAs son buenas para resolver aquellos problemas que las personas solucionan adecuadamente, pero que los computadores no. Estos problemas, entre otros, incluyen reconocimiento de patrones y problemas de pronóstico (los cuales requieren el reconocimiento de una tendencia en unos datos).. 2.2.2.. La Neurona Artificial. Basándose en la descripción que la neurociencia hace del funcionamiento de las neuronas biológicas, se pasa a intentar simular el comportamiento de esta unidad básica de proceso de información. Ası́ tenemos que las unidades básicas de las RNA son las neuronas artificiales. Aunque hay varios tipos de neuronas diferentes, la más común es la de tipo McCulloch-Pitts. En la Figura 2.2 puede verse una representación de la misma.. X. 1 W. X. NEURONA i. sinapsis i1. cuerpo celular. Wi2 2. f() W ij. Xj. axón. yi. Salida. yi = f (. W in. Entradas. Wij Xi -. i. ). i Xn -1. dendritas. umbral. Figura 2.2: Representación de una neurona artificial tipo McCulloch-Pitts.. 21.

(45) 2.2 Redes Neuronales Artificiales. Una neurona artificial es un procesador elemental, en el sentido de que procesa un vector x̄(x1 , x2 , ...xN ), (x̄ ∈ Rn ) de entradas y produce un respuesta o salida única. Los elementos clave de una neurona artificial los podemos ver en la figura. anterior y son los siguientes: Las entradas que reciben los datos de otras neuronas. En una neurona biológica corresponderı́an a las dendritas. Aquı́ las señales eléctricas se convierten en valores numéricos (las componentes del vector x). Los pesos sinápticos wij ∈ R. Al igual que en una neurona biológica se establecen sinapsis entre las dendritas de una neurona y el axón de otra, en una neurona artificial a las entradas que vienen de otras neuronas se les asigna un peso, un factor de importancia. Este peso, que es un número, se modifica durante el entrenamiento de la red neuronal, y es aquı́ por, tanto, donde se almacena la información que hará que la red sirva para un propósito u otro. Una regla de propagación. Con esas entradas y los pesos sinápticos, se suele hacer algún tipo de operación para obtener el valor del potencial postsináptico (valor que es función de las entradas y los pesos y que es el que se utiliza en último término para realizar el procesamiento). Una de las operaciones más comunes es sumar las entradas, pero teniendo en cuenta la importancia de cada una (el peso sináptico asociado a cada entrada). Es lo que se llama suma ponderada, aunque otras operaciones también son posibles.. hi = (t) =. X. wij xj. (2.1). j. donde xj es el valor de la j-énesima entrada (input), wij son los pesos asignados a la conexión de las neuronas, j e i y hi es la salida de la neurona i.. Una función de activación. El valor obtenido con la regla de propagación, se filtra a través de una función conocida como función de activación y es la que nos da la salida de la neurona. Según para lo que se desee entrenar la red neuronal, se suele escoger una función de activación u otra en ciertas neuronas de la red. En la Tabla 1.1 se muestran las funciones de activación más usuales [2, 59].. 22.

(46) 2.2 Redes Neuronales Artificiales. Función. Rango. Gráfica f(x). Identidad. y=x. [−∞, +∞] x. f(x). Escalón. y = sig(x) y = H(x). Lineal a Tramos. Sigmoidea. x. {−0, +1}.     −1 si x > −l y= x si l ≤ x ≤ −l    +1 si x > +l y=. {−1, +1}. 1 1+e−x. f(x). [−1, +1]. -1. +1. x. f(x). [0, +1] x. y = tgh (x). [−1, +1] f(x). Gaussiana. y = Ae−Bx. 2. [0, +1] x. f(x). Sinusoidal. y = Asen(ωx + ϕ). [−1, +1] x. Tabla 2.1: Funciones de activación.. En muchas ocasiones la razón para la aplicación de una función de activación distinta de la identidad surge de la necesidad de que las neuronas produzcan una salida acotada. Esto desde un punto de vista de similitud con el sistema biológico, no es tan descabellado, ya que las respuestas de las neuronas biológicas están acotadas en amplitud. Además cada neurona tiene asociado un número denominado bias o umbral, que puede verse como un número que indica a partir de que valor del potencial postsináptico la neurona produce una salida significativa. Este termino θ ∈ R es añadido a la suma ponderada que posteriormente se transforma en la 23.

(47) 2.2 Redes Neuronales Artificiales. función de activación, es decir, se interpreta como una entrada más de la neurona.. y=f. N −1 X i=0. wi xi − θ. !. =f. N X i=0. !. wi xi. (2.2). donde y es la salida de la red, f es la función de activación, N, es el número de componentes del vector de entrada, wi , es el peso (weights) de la conexión entre la i-ésima entrada y la neurona, xi , es el valor de la i-ésima entrada (input), y θ, es el valor umbral (threshold).. La caracterı́stica más importante de las redes neuronales artificiales, es la capacidad que tienen estas unidades de procesamiento simple para aprender y retener la información de su entorno. El aprendizaje en las RNA se discute en la próxima subsección (2.0.3.).. 2.2.3.. Aprendizaje de las Redes Neuronales Artificiales. La propiedad más importante del sistema nervioso es su capacidad de aprender de su entorno y mejorar ası́ su rendimiento. En el contexto de aprendizaje en redes neuronales artificiales, el aprendizaje puede definirse como: “Un proceso mediante el cual los parámetros libres de una red neuronal se han adaptado a través de un proceso de simulación al medio ambiente en el que se inserta la red” [60]. Del mismo modo, una RNA también posee esta importante función. Con la ayuda de un procedimiento de aprendizaje, la RNA puede extraer y almacenar la información de los datos puestos a disposición de la red. La información extraı́da se almacena en la red a través de los pesos de conexión, y puede ser recuperado para su uso futuro.. Una regla de aprendizaje define exactamente cómo los pesos de la red deben ser ajustados (actualizados) entre los sucesivos ciclos (épocas) de entrenamiento de acuerdo con el entorno en que se encuentra la red. El aprendizaje de las RNAs puede ser supervisado o no supervisado.. El aprendizaje en las RNAs con un profesor (Aprendizaje Supervisado), o sin un profesor (Aprendizaje no Supervisado). En el aprendizaje supervisado a 24.