Un modelo neuronal basado en la metaplasticidad para la clasificación de objetos en señales 1-d y 2-d
Texto completo
(2) Universidad Politécnica de Madrid Escuela Técnica Superior de Ingenieros de Telecomunicación Departamento de Señales, Sistemas y Radiocomunicaciones. UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACIÓN DE OBJETOS EN SEÑALES 1-D Y 2-D. TESIS DOCTORAL. Autor:. Alexis Enrique Marcano Cedeño Lic. en Informática. Director:. Diego Andina de la Fuente Dr. Ingeniero del Dpto. de Señales, Sistemas y Radiocomunicaciones Universidad Politécnica de Madrid. 2010.
(3) TESIS DOCTORAL. UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACIÓN DE OBJETOS EN SEÑALES 1-D Y 2-D. AUTOR:. Alexis Enrique Marcano Cedeño. DIRECTOR:. Diego Andina de la Fuente. PRESIDENTE: SECRETARIO: VOCAL: VOCAL: VOCAL: SUPLENTE: SUPLENTE:. Realizado el acto de defensa y lectura de Tesis el dı́a. de. En la E.T.S. de Ingenieros de Telecomunicación. Calificación:. EL PRESIDENTE. EL SECRETARIO. LOS VOCALES. de 2010..
(4) A Camila por el tiempo robado......
(5) ((Aquella teorı́a que no encuentre aplicación práctica en la vida, es una acrobacia del pensamiento)). Swami Vivekananda.
(6) Dedicatoria Dedicada muy especialmente:. A mis padres Anı́bal y Luisa de Marcano (†) por haberme dado la vida, por guiarme y darme su apoyo en todo momento.. A Carol por su paciencia, confianza, apoyo y por haberme dado el impulso necesario para alcanzar esta meta.. A mis hermanos Crispina, José y Luisa Celeste por todo su apoyo, confianza y aliento desde la planificación, inicio y finalización de mis estudios doctorales.. A mis sobrinos Franchiny, Cristian, Cris José, Franco y Frank Ali por haberme dado la oportunidad de compartir sus vivencias, experiencias y sobre todo por haberme dado muchas alegrı́as y satisfacciones.. A mis amigos, compañeros y profesores de la Universidad Pedagógica Experimental Libertador (UPEL), Elsa Rivas, Abdel Puerta, Victor Reyes por su apoyo incondicional en esta etapa.. i.
(7) Agradecimientos La realización y culminación de esta tesis no hubiera sido posible sin la colaboración de muchas personas que, de un modo u otro me han aportado sus conocimientos y brindado su apoyo.. En primer lugar quiero dar mi agradecimiento a mi tutor y director de tesis Dr. Diego Andina de la Fuente, quien desde el primer momento me dio todo su apoyo, amistad y me guió durante esta investigación ası́ como también supo canalizar todas mis esfuerzos para finalizar con éxito esta etapa de mi vida. Debo agradecer, además, su paciente revisión del texto presentado.. Este trabajo ha sido enriquecido y fortalecido por las sugerencias, aportaciones, crı́ticas y recomendaciones en los aspectos teóricos y prácticos por los profesores Joaquı́n Torres, Ernesto Castañeda, José Luis Tapia, Juan Grau, Antonio Fumero, Carlos Gonzalez.. Lupita, Joel, Aleskandar, Benjamı́n, Fulgencio mis compañeros de laboratorio de GASC, por sus sugerencias, criticas, aportaciones y recomendación durante todos mis estudios doctorales y muy especialmente por haber hecho mis estancia más sencilla y placentera.. De manera muy especial a Miguelito por todas sus aportaciones, sugerencias, recomendaciones y por su compañı́a durante esta fase del doctorado.. Este trabajo hubiera sido casi imposible de terminar sin la valiosa colaboración y aportación del Fondo Nacional de Ciencia, Tecnologı́a e Innovación de la República Bolivariana de Venezuela.. ii.
(8) Resumen El Algoritmo de Retropropagación (Algoritmo Backpropagation, ABP), es uno de los algoritmos más conocidos y utilizados para el entrenamiento de las Redes Neuronales Artificiales, RNAs. El ABP ha sido empleado con éxito en problemas de clasificación de patrones en áreas como: Medicina, Bioinformática, Telecomunicaciones, Banca, Predicciones Climatológicas, etc. Sin embargo el ABP tiene algunas limitaciones que le impiden alcanzar un nivel óptimo de eficiencia (problemas de lentitud, convergencia y de exactitud en la clasificación). Estos problemas han dado lugar a un gran número investigaciones para mejorar al mencionado algoritmo. Pero a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavı́a no existe una solución optima, que se pueda aplicar a todos los problemas.. En esta Tesis Doctoral se propone una alternativa para mejorar algunas de las deficiencias del ABP. El algoritmo propuesto, es una aplicación de un modelo neuronal basado en la propiedad biológica de la Metaplasticidad. La Metaplasticidad es un concepto biológico ampliamente conocido y usado en muchos campos relacionados con la Biologı́a, Neuro-Biologı́a, Psicologı́a, Neurologı́a y Neuro-Fisiologı́a entre otros. La Metaplasticidad está relacionada con los procesos de la memoria y del aprendizaje.. Una de las ventajas del algoritmo propuesto de la Metaplasticidad Artificial (Artificial Metaplasticity, AMP) es que, se puede implementar en cualquier RNA, en esta tesis, se implementó por primera vez para diversas aplicaciones multidisciplinarias en un Perceptron Multicapa (Multilayer Perceptron, MLP). De todos los modelos AMP probados en la literatura, el modelo más eficiente (en función del tiempo de aprendizaje y rendimiento) es el enfoque que conecta la metaplasticidad con la Teorı́a de la información de Shannon, que establece que los patrones menos frecuentes tienen más información que los patrones más frecuentes. Este modelo deiii.
(9) fine la metaplasticidad artificial como un procedimiento de aprendizaje que produce una mayor modificación en los pesos sinápticos de los patrones menos frecuentes que de los patrones más frecuentes, como una forma de extraer más información de los primeros que de los últimos.. El modelo de la Metaplasticidad Artificial en un Percentrón Multicapa (Artificial Metaplasticity on Percentrón Multilayer, AMMLP) se aplicado en la fase de entrenamiento de las RNAs. Durante esta fase, el algoritmo AMMLP a dado más relevancia a los patrones menos frecuentes y se ha restado importancia a los más frecuentes, asegurando ası́ un entrenamiento más eficaz, mientras se mantiene el rendimiento del MLP.. El algoritmo propuesto AMMLP se ha aplicado a diferentes problemas relacionados con la clasificación de patrones en distintas áreas (Médica, Finanzas e Industriales), demostrando en todos los casos ser superior en términos de exactitud en la clasificación, velocidad de convergencia, fiabilidad y bajo coste computacional a los algoritmos propuestos recientemente por otros investigadores y que han sido comparados en esta tesis.. iv.
(10) Abstract The Backpropagation Algorithm, BPA, is one of the most known and used algorithms to training the Artificial Neuronal Networks, ANNs. The BPA has been success used in problems of patterns classification in areas such as: Medicine, Bioinformatic, Telecommunications, Banking, Climatological Predictions, etc. However the BPA has some limitations that prevent to reach an optimal efficiency level (slowness problems, convergence and classification accuracy). These problems have provoked a big number researches to improve the BPA. However, in general none of the modifications have been capable of delivering satisfactory performance for all problems.. In this doctoral Thesis is proposed an alternative to improve some of the BPA deficiencies. The suggested algorithm, is a neuronal model based on the biological property of the Metaplasticity. The Metaplasticity is a biological concept widely known in the fields of biology, medical computer science, neuroscience, physiology, neurology and others. The Metaplasticity is related to the processes of memory and of the learning.. The main advantage of the suggested Artificial Metaplasticity algorithm, AMP, is that, it is able implementing in any ANNs, in this thesis, algorithm was implemented in a Multilayer Perceptron, MLP. The most efficient AMP model (as a function of learning time and performance) is the approach that connects metaplasticity and Shannon’s information theory, which establishes that less frequent patterns carry more information than frequent patterns. This model defines artificial metaplasticity as a learning procedure that produces greater modifications in the synaptic weights with less frequent patterns than frequent patterns, as a way of extracting more information from the former than from the latter.. v.
(11) The Artificial Metaplasticity on Multilayer Percentrón, (AMMLP) model was applied in the ANNs training phase. During the training phase, the AMMLP algorithm assigns higher values for updating the weights in the less frequent activations than in the more frequent ones. AMMLP achieves a more efficient training and improves MLP performance.. The suggested AMMLP algorithm was applied to different related problems to the pattern classification in different areas (Medical, Finance and Industrialists). The AMMLP demonstrated in all cases be superior in terms of classification accuracy, speed, reliability and low computational cost than others algorithms recently suggested by other researchers and applied a this areas.. vi.
(12) Índice 1. Introducción. 1. 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.4.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.4.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.5. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 2. Redes Neuronales Artificiales. 17. 2.1. Neuronas Biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . .. 20. 2.2.1. Definición de Red Neuronal . . . . . . . . . . . . . . . . . . .. 20. 2.2.2. La Neurona Artificial. . . . . . . . . . . . . . . . . . . . . . .. 21. 2.2.3. Aprendizaje de las Redes Neuronales Artificiales . . . . . . .. 24. 2.2.4. Arquitectura de las Redes Neuronales Artificiales . . . . . . .. 27. 3. El Perceptrón. 34. 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 3.2. El Perceptrón Monocapa . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 3.2.1. Dinámica del Perceptrón . . . . . . . . . . . . . . . . . . . . .. 35. 3.2.2. Aprendizaje del Perceptrón . . . . . . . . . . . . . . . . . . .. 39. 3.2.3. Limitaciones del Perceptrón Monocapa . . . . . . . . . . . . .. 43. vii.
(13) 3.3. El Perceptrón Multicapa . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.4. El Algoritmo de Retropropagación . . . . . . . . . . . . . . . . . . .. 48. 3.4.1. Método del Gradiente . . . . . . . . . . . . . . . . . . . . . .. 49. 4. La Metaplasticidad. 57. 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 4.2. Reseña Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 4.3. Plasticidad Sináptica . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.3.1. Potenciación y Depresión a largo plazo . . . . . . . . . . . . .. 59. 4.3.1.1. Potenciación a Largo Plazo, PLP . . . . . . . . . . .. 59. 4.3.1.2. Depresión a Largo Plazo, DLP . . . . . . . . . . . .. 61. 4.4. Plasticidad Intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 4.5. Metaplasticidad. 62. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. Metaplasticidad Artificial 5.1.. 65. La Metaplasticidad y la Teorı́a de la Información de Shannon . . . .. 65. 5.2. Algoritmo de Backpropagation y AMP . . . . . . . . . . . . . . . . .. 66. 5.3. Implementación de la Metaplasticidad Artificial en el Entrenamiento de un MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.4. Algoritmo AMMLP . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 5.5. Selección de la estructura de Red de un AMMLP . . . . . . . . . . .. 71. 6. Experimentos y Resultados. 74. 6.1. Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.1.1. Base de Datos de Cáncer de Mama de Wisconsin . . . . . . .. 74. 6.1.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 76. 6.1.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 77. 6.1.3.1. Exactitud de los resultados . . . . . . . . . . . . . .. 77. 6.1.3.2. Resultados de la curva ROC . . . . . . . . . . . . .. 80. 6.1.3.3. Comparación con el Estado-del-Arte . . . . . . . . .. 83. 6.1.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 85. viii.
(14) 6.2. Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 6.2.1. Base de Datos de Aprobación de Crédito de Australia . . . .. 86. 6.2.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 87. 6.2.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 88. 6.2.3.1. Exactitud de los resultados . . . . . . . . . . . . . .. 89. 6.2.3.2. Comparación con el Estado-del-Arte . . . . . . . . .. 91. 6.2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 92. 6.3. Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 93. 6.3.1. Base de datos de Nudos . . . . . . . . . . . . . . . . . . . . .. 94. 6.3.1.1. Extracción de Caracterı́sticas . . . . . . . . . . . . .. 94. 6.3.1.2. Selección de Caracterı́sticas . . . . . . . . . . . . . .. 96. 6.3.2. Selección de la Estructura de Red . . . . . . . . . . . . . . .. 96. 6.3.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . .. 97. 6.3.3.1. Comparación con el Estado-del-Arte . . . . . . . . .. 99. 6.3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 6.4. Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.4.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.4.2. Selección de la Estructura de Red . . . . . . . . . . . . . . . 101 6.4.3. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . . 102 6.4.3.1. Comparación con el Estado-del-Arte . . . . . . . . . 104 6.4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.5. Experimento 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.5.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.5.2. Selección de Caracterı́sticas . . . . . . . . . . . . . . . . . . . 108 6.5.2.1. Selección Secuencial Adelante . . . . . . . . . . . . . 108 6.5.2.2. Red Neuronal de Alimentación Adelante . . . . . . 108 6.5.2.3. Implementación del SFS-FFNN. . . . . . . . . . . . 109. 6.5.3. Selección de la Estructura de Red . . . . . . . . . . . . . . . 111 6.5.4. Evaluación del Método . . . . . . . . . . . . . . . . . . . . . . 112 6.5.4.1. Comparación con el Estado-del-Arte . . . . . . . . . 113 ix.
(15) 6.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 7. Conclusiones. 115. 8. Contribuciones y Lı́neas Futuras de Investigación. 117. 8.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2. Lı́neas Futuras de Investigación . . . . . . . . . . . . . . . . . . . . . 119. I. APÉNDICES. 121. 8.3. Publicaciones que sustentan la Tesis . . . . . . . . . . . . . . . . . . 122 8.3.1. Publicaciones en Revistas (JCR) . . . . . . . . . . . . . . . . 122 8.3.2. Publicaciones en Congresos . . . . . . . . . . . . . . . . . . . 122 8.4. Otras Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 125. x.
(16) Índice de Figuras 2.1. Estructura básica de una neurona biológica.. . . . . . . . . . . . . .. 18. 2.2. Representación de una neurona artificial tipo McCulloch-Pitts. . . .. 21. 2.3. a) Muestra un ejemplo de una red Feed-forward, en esta red la información siempre se mueve en una dirección, nunca va hacia atrás. (b) En las redes recurrentes, la información puede fluir en dos direcciones y los nodos de entrada se pueden comunicar con los nodos de salida.. 29. 2.4. Arquitectura de un Perceptrón Multicapa.. . . . . . . . . . . . . . .. 30. 2.5. Arquitectura de un mapa autoorganizado.. . . . . . . . . . . . . . .. 31. 2.6. Arquitectura de una red de función de base radial. . . . . . . . . . .. 32. 2.7. Taxonomı́a Básica de las RNA . . . . . . . . . . . . . . . . . . . . .. 33. 3.1. Esquema de un perceptrón monocapa. . . . . . . . . . . . . . . . . .. 35. 3.2. Función lógica AND.. . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 3.4. Perceptrón monocapa con N neuronas. . . . . . . . . . . . . . . . . .. 38. 3.5. Función lógica XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.3. Función lógica OR.. 3.6. Distintas formas de las regiones generadas por un perceptrón multicapa. 47. xi.
(17) 4.1. Proceso de inducción a la Potenciación a Largo Plazo, PLP: a) Normalmente el canal NMDA esta bloqueado por una molécula de Magnesio (M g 2+ ). b) La activación repetida del receptor AMPA permite la entrada de sodio (N a+ ) a la neurona lo que produce una despolarización de la misma y expulsa el Magnesio del canal NMDA y permite la entrada de iones de calcio Ca2+ . c) el incremento del iones de calcio produce la activación de las proteı́nas cimasas lo que hace más sensible a la neurona a nuevos estı́mulos, lo cual facilita la PLP. . . .. 60. 4.2. Proceso de inducción a la Depresión a Largo Plazo, DLP: a) La DPL se produce con cuando se activan los receptores NMDA y el ingreso del calcio (Ca2+ ) a la neurona postsináptica es un pocas cantidades. b) La DLP también puede originarse después de de un periodo de PLP cuando haya una disminución en los niveles de calcio. La DPL ayuda a mantener el equilibrio de las neuronas, es decir, que actúa como un proceso homeostático. . . . . . . . . . . . . . . . . . . . . .. 61. 4.3. Los cambios en la fuerza sináptica debido a la actividad postsináptica de las neuronas biológicas. Si la actividad postsináptica es alta, la curva se desplazará hacia la derecha, lo que reforzará la LTP. En la gráfica se muestra una familia de curvas en las que cada curva indica la variación de los pesos, ∆ω, con respecto a la activación de las neuronas. Para valores altos de los pesos, ω, la curva se alargara más a la derecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 4.4. La metaplasticidad consiste en el cambio del umbral de PLP en función del peso inicial de la sinapsis. Estas dos imágenes muestran gráficamente esta idea. Para valores superiores del peso inicial la curva sináptica es alargada de manera que el valor umbral PLP corresponde a los valores más altos de la actividad postsináptica. . . . . . . .. 64. 6.1. Muestra la curva ROC de los clasificadores, donde se puede apreciar claramente y una vez más la superioridad del AMMLP sobre el BP estándar, en este caso en particular. (a) Muestra la curva ROC y la AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y la AUC de 0.928 del BP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. 6.2. Tipos de nudos usados en esta investigación: a) Nudo de Borde. b) Nudo Encerrado. c) Nudo de Hoja. . . . . . . . . . . . . . . . . . . .. xii. 93.
(18) 6.3. Distribución de lo patrones usados en la etapa de entrenamiento. . .. 98. 6.4. Distribución de la clasificación de los patrones obtenida en la fase de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. 6.5. Evolución del error en la clasificación usando SFS-FFNN para cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110. xiii.
(19) Índice de Tablas 1.1. Algoritmos propuestos para mejorar el ABP entre los años 1990-2000. 11 1.2. Algoritmos propuestos para mejorar el ABP entre los años 2001-2010. 12 2.1. Funciones de activación. . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 6.1. Descripción de los atributos del cáncer de mama de la base de datos de Wisconsin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 6.2. Resultados obtenidos para AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad. . . . . . . . . . . . . . .. 76. 6.3. Parámetros de red aplicados a la WBCD. . . . . . . . . . . . . . . .. 77. 6.4. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 6.5. Matriz de confusión de la mejor clasificación obtenida por los clasificadores en una simulación. . . . . . . . . . . . . . . . . . . . . . . . .. 79. 6.6. Exactitud obtenida en la mejor simulación para cada clasificador para la clasificación del cáncer de mama. . . . . . . . . . . . . . . . . . . .. 80. 6.7. Promedio de exactitud de la clasificación del cáncer de mama obtenido por cada clasificador en 100 simulaciones. . . . . . . . . . . . . . . .. 80. 6.8. Exactitud de la clasificación obtenida por el método propuesto AMMLP y por otros clasificadores consultados en la literatura.. . . . . . . . .. 84. 6.9. Descripción de los atributos de la base de datos Aprobación de Crédito de Australia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 6.10. Resultados obtenidos por el AMMLP al aplicarlo a la base de datos ACAS, usando diferentes estructuras de red y diferentes parámetros de metaplasticidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 6.11. Parámetros de red aplicados a la ACAS. . . . . . . . . . . . . . . . .. 88. xiv.
(20) 6.12. Matrices de confusión de la mejor clasificación obtenida por los clasificadores en una simulación usando la base de datos ACAS. . . . . .. 90. 6.13. Exactitud de la clasificación obtenida por los clasificadores en la mejor simulación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90. 6.14. Promedio en la exactitud de la clasificación obtenida en 50 simulaciones para cada clasificador. . . . . . . . . . . . . . . . . . . . . . .. 90. 6.15. Exactitud de la clasificación usando la base de datos Aprobación de Crédito Australiana obtenida por el método propuesto AMMLP y por otros clasificadores consultados en la literatura. . . . . . . . . . . . . 6.16. Distribución de las muestras utilizadas en este estudio por clases.. .. 92 94. 6.17. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad usados con base de datos de nudos en la madera. . . . . . . . . . . . . . . . . . . . . . .. 97. 6.18. Matrices de confusión del mejor resultado obtenido por cada clasificador en una simulación clasificando los nudos en la madera. . . . .. 97. 6.19. Promedio de exactitud de la clasificación de nudos en la madera obtenida por los clasificadores en 50 simulaciones. . . . . . . . . . . .. 99. 6.20. Distribución de las bases de datos consideradas en este estudio. . . . 101 6.21. Distribución de los patrones usados para el entrenamiento y prueba de las redes usando diferentes bases de datos. . . . . . . . . . . . . . 101 6.22. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.23. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos del Vino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.24. Resultados obtenidos por el AMMLP, con diferentes estructuras de red y diferentes parámetros de metaplasticidad para la base de datos Ionosfera. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.25. El mejor resultado obtenido por el BP estándar, para cada base de datos usada en este estudio. . . . . . . . . . . . . . . . . . . . . . . . 103 6.26. Comparación de los resultados obtenidos por el AMMLP y el BP estándar para cada base de datos. . . . . . . . . . . . . . . . . . . . . 103 xv.
(21) 6.27. Promedio de exactitud obtenido en la clasificación del AMMLP y del BP estándar en 100 simulaciones. . . . . . . . . . . . . . . . . . . . . 103 6.28. Comparación en la exactitud de la clasificación obtenida por el método propuesto AMMLP y por otros métodos usando las mismas bases de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.29. Caracterı́sticas de las bases de datos consideradas en este estudio. . . 108 6.30. Resultado de la selección de caracterı́sticas después de aplicar el método propuesto SFS-FFNN. . . . . . . . . . . . . . . . . . . . . . . . . 111 6.31. Número de patrones utilizando para el entrenamiento y prueba para cada base de datos usada en este estudio. . . . . . . . . . . . . . . . 111 6.32. Diferentes estructuras de redes neuronales aplicados para cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.33. Diferentes parámetros de red y de metaplasticidad aplicados para cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . 112 6.34. La mejor estructura de red y parámetros de metaplasticidad para cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.35. Los mejores resultados obtenidos en una simulación por el AMMLP y el BP estándar con las caracterı́sticas seleccionadas de cada base de datos por el método SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113 6.36. Promedio obtenido en 100 simulaciones por el AMMLP y el BP estándar usando las caracterı́sticas seleccionadas de cada base de datos por el método SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113 6.37. Reducción de la dimensionalidad de las bases de datos y la exactitud en la clasificación del AMMLP y de otros algoritmo propuesto usando las mismas bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 114. xvi.
(22) Lista de Abreviaturas AMMLP. Artificial Metaplasticity in a Perceptrón Multilayer.. AMP. Artificial Metaplasticity.. AMPA. Alpha-Amino-3-hydroxy-5-Methyl-4-isoxazolePropionic Acid receptor.. ANMBP. Algorithm Neighborhood Modified Backpropagation.. ANN. Artificial Neural Network.. AUC. Area Under the Curve.. BP. Backpropagation.. BPAVSAF. Backpropagation Algorithm with Varying Slope of Activation Function.. BPDC. Backpropagation-Decorrelation.. BPVS. Backpropagation with Variable Stepsize.. BPWE. Backpropagation by Weight Extrapolation.. BST. Backpropagation with Selective Training.. CBP. Constructive Backpropagation.. CC. Cascade-Correlation.. CG. Conjugate Gradient.. DDB. Dynamic of Decision Boundaries.. DS. Dynamic Self-adaptation.. DV. Descent Vector.. ELEANNE. Efficient Learning Algorithms for Neural Networks.. EmBP. Backpropagation Emocional.. ES. Expert Systems.. ESP. Error Saturation Prevention.. FFNN. Feed-forward Neural Network.. FGBP. Fuzzy General Backpropagation.. F-PM. First-Principle Model.. GA. Genetic Algorithm.. HFS. High-Frequency Stimulation.. xvii.
(23) IBLN. Incremental Backpropagation Learning Network.. IIALR. Individual Inference Adjusting Learning Rate Technique.. ISAs. Matrix Instruction Set Architectures.. LCFNN. Local Coupled Feedforward Neural Network.. LFS. Low Frequency Stimulation.. LPEBP. Learning Phase Evaluation Backpropagation Neural Network.. LR. Learning Rate.. LS-PEN. Least Squares and Penalty.. LTD. Long-Term Depression.. LTP. Long-Term Potentiation.. LUT. Look-up Table.. MBP. Matrix BackPropagation.. MF. Momentum Factor.. MLEANN. Meta-Learning Evolutionary Artificial Neural Network.. MLP. Perceptrón Multilayer.. MSE. Mean Squared Error.. NMDA. N-Metil-D-Aspartato.. PDF. Probability Density Function.. PF. Proportional Factor.. PUNNs. Product Unit Neural Networks with Exponential Weights.. RBFN. Radial Basis Function Networks.. RBPA. Robust BP Algorithm.. ROC. Receiver Operating Characteristic.. SCBP. Split-Complex Backpropagation.. SD. Steepest Descent.. SVD. Singular Value Decomposition.. TAO-RBLA. TAO-Robust Backpropagation Learning Algorithm.. Three-Term. Three-Term BP Algorithm.. BPA TS. Tabu Search.. Z-EDM. Error Density at the Origin.. xviii.
(24) Capı́tulo 1. Introducción 1.1.. Introducción. Las Redes Neuronales Artificiales, RNAs(Artificial Neural Networks, ANNs) están inspiradas en las redes neuronales biológicas del cerebro humano. La RNAs están constituidas por elementos que se comportan de forma similar a la neurona biológica en sus funciones más comunes. Estos elementos están organizados de una forma parecida a la que presenta el cerebro humano.. Las RNA al margen de “parecerse” al cerebro presentan una serie de caracterı́sticas propias del cerebro. Por ejemplo las RNA aprenden de la experiencia, generalizan de ejemplos previos a ejemplos nuevos y abstraen las caracterı́sticas principales de una serie de datos.. Muchos algoritmos o métodos de aprendizaje diseñados para RNAs, se basan en la minimización del error de la función objetivo. Durante el aprendizaje, los valores de los pesos son actualizados siguiendo una estrategia que tiende a reducir al mı́nimo el error final del funcionamiento de la red, entre esos algoritmos uno de los más usados es el Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP), sin embargo, el mencionado algoritmo tiene algunas limitaciones que le impiden alcanzar un nivel óptimo de eficiencia. El aprendizaje tarda con frecuencia un largo tiempo en converger y puede quedar fácilmente atrapado en mı́nimos locales sin lograr alcanzar el mı́nimo global [1, 2, 3]. Para resolver algunos de los inconvenientes antes mencionados del ABP muchos investigadores desarrollan continuamente modificaciones o variantes de este algoritmo. Una buena parte de estas modificaciones tratan de resolver el problema de su lenta convergencia,. 1.
(25) 1.1 Introducción. mientras que otras se centran en conseguir una mejor generalización del mencionado algoritmo. Sin embargo, en general ninguna de las modificaciones es capaz de ofrecer un rendimiento satisfactorio para todos los problemas. La gran mayorı́a de estas modificaciones por lo general implican más cálculos y más procesamiento por iteración ası́ como también requieren de la elección a priori de algunos parámetros adicionales [3]. Por estos motivos la búsqueda de un enfoque para acelerar el proceso de convergencia y/o para la mejora del rendimiento general del entrenamiento del ABP continua siendo el centro de investigación para muchos investigadores.. En esta tesis, propone y se desarrolla un modelo neuronal basado en la propiedad biológica de la Metaplasticidad con la finalidad de mejorar los problemas de lentitud, convergencia y exactitud del ABP. La Metaplasticidad es un concepto biológico ampliamente conocido en áreas como: Biologı́a, Fisiologı́a, Ciencia Médica, Neurologı́a, Neurociencia y Psicologı́a entre otros, y es motivo de continuas investigaciones [4, 5, 6, 7, 8]. Una de las ventajas del modelo propuesto de la Metaplasticidad Artificial (Artificial Metpalasticity, AMP) es que, se puede implementar en cualquier RNAs, en esta tesis, se implementará en un Perceptrón Multicapa (Multilayers Perceptron, MLP). El modelo propuesto para este estudio a partir de ahora se llamará Metaplasticidad Artificial en un Percentrón Multicapa, (Artificial Metaplasticity Multilayer on Perceptron, AMMLP).. El modelado de la AMP se realizará en la fase de entrenamiento de las RNAs. De todos los modelos AMP probados en la literatura hasta ahora, el más eficiente desde el punto de vista del aprendizaje y el rendimiento es el que conecta la Metaplasticidad con la teorı́a de la información de Shannon, es decir, que durante la fase de entrenamiento, el algoritmo AMMLP dará más relevancia a los patrones menos frecuentes y sustraerá importancia a los patrones más frecuentes, asegurando ası́ un entrenamiento más eficaz, mientras se mantiene el rendimiento del MLP. Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-Cedeño [10, 11, 12] han introducido y modelado la propiedad biológica de la Metaplasticidad en el campo de las RNA, obteniendo excelentes resultados.. 2.
(26) 1.2 Antecedentes. 1.2.. Antecedentes. Como se comentó anteriormente el Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP), para el entrenamiento de las Redes Neuronales Artificiales, RNAs, ha sido usado con éxito en problemas reales para la clasificación de patrones en Medicina, Bioinformática, Telecomunicaciones, Banca, Predicciones Climatológicas, entre otros [10, 13, 14, 15]. Sin embargo a pesar del éxito obtenido este algoritmo tiene algunas dificultades. Debido a estas dificultades el algoritmo de retropropagación ha sido uno de los algoritmos que más modificaciones ha sufrido desde su creación. Para esta investigación se ha tenido que hacer una selección de los algoritmos propuestos para mejorar al ABP del año 1990-2010.. En 1990, Leonard & Kramer, desarrollaron un método basado en el Gradiente Conjugado (Conjugate Gradient, CG), dicho método es una combinación de lotes de ejemplos y de búsqueda lineal con el gradiente descendiente en la dirección conjugada. Leonard & Kramer demostraron que el método del gradiente conjugado puede ser visto con un ABP por lotes con ajuste dinámico de la tasa de aprendizaje y del momento [16].. En 1991, Lee & Weidman, propusieron que para mejorar el entrenamiento de las RNAs, necesariamente se debı́a hacer uso de los Sistemas Expertos (Expert Systems, ES). Lee & Weidman concluyeron que el uso de un sistema experto para supervisar el entrenamiento es mucho más eficiente que realizar un entrenamiento de las RNAs per se [17]. Kim & Ra, formularon un algoritmo llamado Dynamic of Decision Boundaries, DDB, para elegir los valores iniciales de los pesos, los cuales son obtenidos de la regla del delta generalizada, con lo cual se mejora la estabilidad y la velocidad del proceso de aprendizaje mediante la eliminación de los efectos retraso y convergencia del ABP [18].. En 1992, Scalero & Tepedelenlioglu, desarrollaron un algoritmo para mejorar el ABP basado en la minimización del Error Cuadrático Medio, ECM (Mean Squared Error, MSE) entre la salida deseada y la salida real con respecto a la suma de las salidas (insumos para las no linealidades). Esto contrasta con el ABP estándar que minimiza el error cuadrático medio con respecto a los pesos [19]. Karayiannis & 3.
(27) 1.2 Antecedentes. Venetsanopoulos, propusieron un criterio generalizado para el entrenamiento de las Redes Neuronales Progresivas (Feed-forward Neuronal Network, FFNN) mono capa y de multiples capas, basado en la regla del delta. Estos algoritmos fueron llamados Efficient Learning Algorithms for Neural Networks, ELEANNE [20].. En 1993, Anand et al., analizaron el problema de la lenta convergencia del ABP para problemas de dos clases con conjuntos de entrenamientos desbalanceados. Anand et al., propusieron un algoritmo llamado Descent Vector, DV, que calcula un vector de descenso, que apunta en una dirección de declive para ambas clases. Por lo tanto, los errores de red, tanto para las clases dominantes y subordinadas disminuyen por el movimiento de los pesos en la dirección del vector descendiente [21].. En. 1994,. Riedmiller. et. al.,. hizo. una. revisión. general. de. varios. algoritmos propuestos para mejorar el ABP. Todos los enfoques descritos en ese artı́culo hacen uso de alguna manera de la derivada de primer orden parcial de cada uno de peso con respecto al error general de la red [22]. Chen & Jain, propusieron un algoritmo llamado Robust BP Algorithm, RBPA. El RBBPA es resistente a los efectos de ruido y es capaz de rechazar el grueso de los errores durante el proceso de aproximación. Según Riedmiller et al., el mencionado algoritmo presenta 3 claras ventajas sobre el ABP estándar: a) El RBBPA se aproxima a una correlación subyacente en vez de interpolar las muestras de entrenamiento, b) es robusto frente a errores graves, c) la tasa de convergencia es mejorada ya que suprime la influencia de las muestras incorrectas [23].. En 1995, Alpsan et al., hicieron un estudio comparativo de diferentes métodos propuestos para mejorar el ABP aplicados a problemas médicos reales, basado en métodos heurı́sticos y de optimización. Alpsan et al., concluyeron que ABP estándar puede ser suficientemente rápido o puede tener una buena generalización dependiendo del tipo de problema. En el caso particular de los problemas médicos se requiere por su naturaleza, de una alta generalización con una tolerancia de error mı́nima, para que el sistema sea lo más confiable posible [24].. En 1996, Solomon & Van-Hemmen, propusieron un nuevo algoritmo genético, 4.
(28) 1.2 Antecedentes. basado en la Auto-Adaptación Dinámica (Dynamic Self-Adaptation, DS) para mejorar y acelerar el aprendizaje del ABP. El algoritmo DS, toma el valor de la Tasa de Aprendizaje (Learning Rate, LR) del paso previo, lo aumenta y disminuye ligeramente, evalúa la función de coste para los nuevos valores de la tasa de aprendizaje, y se elige el valor más bajo para la función de coste [25]. Fu et al., presentaron un nuevo método de aprendizaje incremental para reconocimientos de patrones, llamado Incremental Backpropagation Learning Network, IBPLN. El IBPLN emplea una modificación limitada de los pesos y una adaptación estructural de las reglas de aprendizaje, y aplica el conocimiento inicial para limitar el proceso de aprendizaje [26].. En 1997, Magoulas et al., desarrollaron un método llamado Backpropagation with Variable Stepsize, BPVS. El método BPVS se basa en una modificación determinista del Descenso más Rápido (steepest descent, SD) que permite un tamaño de paso variable, como consecuencia de la minimización de la función objetivo y de la observación de la trayectoria en el espacio de pesos. Magoulas et al., obtuvieron buenos resultados en diferentes tipos de problemas [27]. Yam et al., formularon un enfoque novedoso basado en el método de Mı́nimos Cuadrados (Least Squares, LS) para calcular los pesos iniciales óptimos de las RNAs. Una vez determinados los pesos iniciales óptimos, el error inicial es sustancialmente menor y por lo tanto el número de iteraciones necesarias para alcanzar el criterio de error establecido se reduce [28].. En 1998, Sexton et al., demostraron que las limitaciones impuestas por algunos investigadores en el espacio de búsqueda o la reestructuración de la arquitectura de las RNAs, son innecesarias sı́ se utiliza una arquitectura inicial suficientemente compleja y un adecuado algoritmo de búsqueda global. Sexton et al., utilizaron el Algoritmo Genético (Genetic Algorithm, GA), a fin de lograr una mejor generalización del ABP [29]. El mismo año Sexton et al., presentaron otro algoritmo, y al igual que en el artı́culo anterior insisten en que los algoritmos basados en búsqueda global son los mejores para la optimización de las RNA. En esta oportunidad aplicaron una versión extendida del algoritmo Tabu Search, TS, como una posible alternativa a la problemática del ABP [30].. 5.
(29) 1.2 Antecedentes. En 1999, Kamarthi y Pittne, propusieron una mejora del ABP para entrenamiento de las redes feed-forward. Esté nuevo método es conocido como Backpropagation by weight extrapolation, BPWE. El BPWE está basado en el concepto de la extrapolación de pesos calculados por la red. Extrapolando los pesos, es posible economizar en el número de épocas requeridas para el aprendizaje del BP antes de alcanzar un vector de peso aceptable [31]. Lehtokangas presentó un método llamado Constructive Backpropagation, CBP, este algoritmo esta inspirado en el aprendizaje de Correlación en Cascada (CC). El algoritmo CBP comienza con una red pequeña y luego se van agregando unidades ocultas y pesos hasta encontrar una solución satisfactoria [32]. Cho y Chow, formularon un algoritmo de aprendizaje global hı́brido, rápido y robusto, basado en el método de mı́nimos cuadrados y en el método de búsqueda con penalización (Least Squares and Penalty, LS-PEN). El método LS se emplea para determinar los pesos conectados entre la capa de salida y la capa oculta. El método de optimización conocido como penalización es utilizado para evaluar los pesos de entre la capa oculta y la capa de entrada [33]. Ampazisa et al., propusieron un modelo dinámico del sistema, que permite acelerar el aprendizaje, reduciendo al mı́nimo el tiempo de entrenamiento gastado en la vecindad de los mı́nimos temporales. Para ello utilizaron métodos de optimización con restricciones que logran la minimización simultánea de la función de coste y la maximización de lo valores más grandes de la matriz jacobiana, de tal manera que evita que la red pueda quedar en un mı́nimo temporal y por lo tanto, el tiempo total de entrenamiento es reducido significativamente [34].. En 2000, Yam & Chow, desarrollaron un algoritmo para determinar los pesos iniciales óptimos de las redes feedforward basado en la desigualdad de Cauchy y un método algebraico lineal. En el caso de que el sistema este sobredeterminado, usando la factorización QR se obtiene una solución que es la mejor aproximación en el sentido de los mı́nimos cuadrados. En el caso de un sistema indeterminado. la factorización QR calcula la solución de norma mı́nima. Según los autores este método garantiza que los resultados de las neuronas se encuentran en la región activa y aumenta la velocidad de convergencia [35]. Chaudhuri & Bhattacharya, propusieron un método para acelerar la velocidad de convergencia del BPA, basado en una selección inteligente de las muestras de entrenamiento. Este método de aceleración no implica ninguna modificación del algoritmo de BP original. El mencionado método funciona bien en los casos complicados, donde las clases no son fácilmente separables, es decir 6.
(30) 1.2 Antecedentes. que, si las clases se superponen una con otra, un conjunto de entrenamiento formado acorde con el método propuesto puede mejorar el rendimiento considerablemente de un MLP [3].. En 2001, Lee et al., propusieron un método alternativo al gradiente descendiente llamado Error Saturation Prevention, ESP, para prevenir el Error de Saturación (ES) en los nodos de la capa de salida, también aplicaron este método a los nodos de las capas ocultas para ajustar los términos de aprendizaje. El ESP, mejora la eficiencia del aprendizaje y además mantiene el significado semántico de la función de MSE utilizada para justificar la evaluación de criterio de error [36].. En 2002, Mandische, propuso un método aprendizaje evolutivo a través de Estrategias de Evolución (Evolution Strategies, ES) como una alternativa a las técnicas basadas en el gradiente para el entrenamiento de las RNA. Una ventaja de este algoritmo sobre gradiente es que puede ser utilizado en redes con funciones de activación diferenciable [37]. Hoo et al., propusieron utilizar la información obtenida del First-Principle Model, F-PM, para dar un sentido de “dirección” a la estimación del modelo de la RNA. Esto se logra mediante la modificación de la función objetivo a fin de incluir un término adicional que es la diferencia entre la derivada de los resultados, estimado por la red neuronal, y la de las salidas del modelo de primer principio durante la fase de entrenamiento [38].. En 2003, Eom et al., propusieron método llamado Fuzzy General Backpropagation, FGBP, para mejorar el el rendimiento del ABP mediante un sistema de lógica difusa que de manera automática ajusta el parámetro de ganancia de la función de activación, basado en un conjunto de reglas heurı́sticas del dominio del problema determinado a través del estudio de una simulación preliminar [39]. Zweiri et al., a los parámetros tradicionales de la tasa de aprendizaje y al factor de momentum añadieron un nuevo parámetro, llamado Factor Proporcional (Proportional Factor, PF). A este algoritmo con tres parámetros lo llamaron algoritmo de BP de tres términos (three-term BP algorithm). El mencionado algoritmo es más robusto a la elección de pesos iniciales, especialmente cuando se seleccionan los valores relativamente altos para los parámetros de aprendizaje, además este algoritmo es aplicable a cualquier red con diferentes funciones de activación [40]. 7.
(31) 1.2 Antecedentes. En 2004, Abraham, formuló un algoritmo basado en los Algoritmos Evolutivos, llamado Meta-Learning Evolutionary Artificial Neural Network, MLEANN, para la optimización adaptativa de las RNA, donde la arquitectura, la función de activación, los pesos de las conexiones, el algoritmo de aprendizaje y sus parámetros se adaptan de acuerdo con el problema [41]. Wang et al., propusieron un algoritmo en que cada patrón de entrenamiento tiene sus propias funciones de activación de las neuronas en la capa oculta. Las funciones de activación se ajustan por la adaptación de los parámetros de ganancia durante el proceso de aprendizaje. Estos ajustes se hacen con el fin de evitar que la red quede atrapada en un mı́nimo local causado por la saturación de las neuronas en la capa oculta. [42]. Mohammad y Paves̆ié, formularon una mejora del ABP tradicional llamado Backpropagation with selective training, BST y lo aplicaron al entrenamiento de una Red de Función de Base Radial (Radial Basis Function Networks, RBFN) mejorando el rendimiento de la red RBF sustancialmente, en términos de velocidad de convergencia y el error de reconocimiento. Además el BST resuelve tres problemas del ABP: el sobreentrenamiento, la convergencia lenta al final del entrenamiento, y la incapacidad de aprender con un porcentaje pequeño de patrones [43].. En 2005, Pernı́a-Espinoza et al., propusieron un algoritmo para mejorar el entrenamiento del ABP llamado TAO-Robust Backpropagation Learning Algorithm. El mencionado algoritmo utiliza un estimador de escala, que es variable y depende de una función Huber de los errores obtenidos en cada época. Además, con este enfoque se consigue dos propiedades importantes: la robustez frente a valores extremos de la data con un punto de ruptura elevada y una alta eficiencia en el modelo normal [44].. En 2006, Steil, propuso un algoritmo llamado Backpropagation-Decorrelation, BPDC, para probar y supervisar la estabilidad para grandes redes donde solo la capa de salida es adaptada. El BPDC combina tres principios básicos: (i) un paso de retropropagación de los errores, (ii) el uso de la memoria temporal en la dinámica se adapta basada en decorrelación de las activaciones, and (iii) el empleo de una reserva de neuronas interior que son no adaptativas para reducir la complejidad [45]. Behera et al., formularon dos nuevos algoritmos de aprendizaje LF I y LF II para la actualización de los pesos de las redes feedforward basados en la función. 8.
(32) 1.2 Antecedentes. de Lyapunov. La contribución clave de esa investigación fue mostrar el paralelismo existente entre los algoritmos propuestos LF I y II y ABP. Se demuestra que los algoritmos propuestos tienen la misma estructura que el ABP con la diferencia de que la tasa de aprendizaje en el ABP es fijo y en los algoritmos se sustituye por una tasa de aprendizaje adaptativo. [46].. En 2007, Wang et al., propusieron un modelo interactivo para mejorar el rendimiento del aprendizaje de ABP. El modelo combina con éxito una nueva técnica de ajustar la tasa de aprendizaje llamada Individual Inference Adjusting Learning Rate technique, IIALR y una nueva manera de actualizar la frecuencia de los pesos, llamada The Batch mode of weight updating frequency, BOWUF[47].. En 2008, Khashman, presentó una modificación del algoritmo de aprendizaje del BP, llamado Backpropagation Emocional, EmBP. El algoritmo EmBP, está basado en dos emociones que el autor considera que pueden afectar al aprendizaje, como lo es la ansiedad y la confianza. Cuando se aprende una nueva tarea, el nivel de ansiedad es alto al principio y el nivel de confianza es baja. Después de un tiempo, la práctica y la retroalimentación positiva, el nivel de ansiedad disminuye mientras aumenta el nivel de confianza. Por lo tanto el EmBP tiene “pesos emocionales” que son actualizando usando los dos parámetros emocionales mencionados anteriormente [48]. Yang et al., propusieron que el rango de los valores iniciales de los pesos cuando se entrena un algoritmo de BP con División-Compleja (Split-Complex Backpropagation, SCBP) deberı́a ser mayor que el de las cantidades de ajuste. Aplicando este criterio se puede reducir el desajuste de los pesos y de las bı́as durante el entrenamiento, además evita la dependencia del rendimiento del SCBP relacionada con los pesos iniciales [49]. Zhang et al., para mejorar la eficiencia de las tradicionales redes feed-forward propusieron un algoritmo llamado Product Unit Neural Networks with Exponential Weights, PUNNs [50]. Silva et al., formularon una nueva función de error EExp , inspirada en el Error Density at the Origin, Z-EDM, que es capaz de simular el comportamiento de otras funciones de error por el ajuste de un solo parámetro con valores reales [51]. Soliman & Mohamed, propusieron una versión modificada de BP sobre la base de la multiplicación de matrices para el procesamiento parallelo. Para ello implementaron la Matrix BackPropagation, MBP usando un conjunto de arquitecturas de instrucciones de matriz (matrix Instruction Set Architectures, ISAs). 9.
(33) 1.2 Antecedentes. escalar y un conjunto de arquitecturas de instrucciones de matriz vectorial [52].. En 2009, Cheng & Park, desarrollaron un algoritmo para mejorar el rendimiento del ABP, llamado Learning Phase Evaluation Backpropagation neural network, LPEBP. El LPEBP divide el proceso de entrenamiento en muchas fases de aprendizaje y evalúa los efectos después de cada fase de aprendizaje. Además aplicaron la técnica de Descomposición del Valor Singular (Singular Value Decomposition, SVD) para reducir la dimensión y las construcción semántica de los términos [53]. Kathirvalavakumar & Jeyaseeli, presentaron un algoritmo de entrenamiento (Algorithm Neighborhood Modified Backpropagation, ANMBP) para RNAs con una capa oculta, basado en la vecindad de la estructura de la red, para sustituir los parámetros de aprendizaje fijos con parámetros de aprendizaje adaptativo. El ANMBP es eficiente en términos del error de entrenamiento, de la memoria y en el tiempo de entrenamiento [54]. Bai et al., formularon un algoritmo para mejorar el ABP, llamado BP algorithm with varying slope of activation function, BPAVSAF, basado en la variación de la pendiente de la función de activación con diferentes tasas de aprendizaje. Los resultados obtenidos demuestran que el ABP clásico puede obtener un buen rendimiento tanto en la fase de entrenamiento como en la de test con solo el ajuste de dos diferentes tasa de aprendizaje y un parámetro de la pendiente de la función de activación de la salida [55].. Finalmente en 2010, Sun, formuló un algoritmo llamado Local Coupled Feedforward Neural Network, LCFNN, donde a cada nodo oculto se asigna una dirección en el espacio de entrada, y cada entrada activa sólo los nodos cercanos a él. Además la dimensionalidad de búsqueda en el espacio durante el entrenamiento del LCFNN no aumenta con el incremento del tamaño de la red y el coste de cálculo de cada muestra de aprendizaje en el entrenamiento y en el proceso de trabajo del LCFNN no aumenta con el incremento del tamaño de la red [56].. Para resumir, en la Tabla 1.1 se presentan todos los algoritmos propuestos para mejorar el ABP, con sus autores, el año y el nombre de la publicación en el perı́odo 1990-2000. En la tabla 1.2. se presenta la misma información, pero del perı́odo 2001-2010.. 10.
(34) 1.2 Antecedentes Autor(s), Año. Método. Publicación. Leonard & Kramer, 1990. CG. Computers & Chemical Engineering.. Lee & Weidman, 1991. SE. Expert Systems with Applications.. Kim & Ra, 1991. DDB. IEEE, IJCNN-91.. Scalero & Tepedelenlioglu, 1992. FBPA. Signal Processing, IEEE Transactions on.. Karayiannis & Venetsanopoulos, 1992. ELEANNE. Circuits and Systems II: Analog and Digital. Anand et al., 1993. VD. Signal Processing, IEEE Transactions on.. Riedmiller et al., 1994. Review. Computer Standards & Interfaces.. Alpsan et al., 1995. Diferentes Técnicas. Neural Networks.. Solomon & van-Hemmen, 1996. DS. Neural Networks.. Fu et al., 1996. IBPLN. Signal Processing, IEEE Transactions on.. Magoulas et al., 1997. BPVS. Neural Networks.. Yam et al., 1997. LS. Neurocomputing.. Sexton et al., 1998. GA. Decision Support Systems.. Sexton et al., 1998. TS. European Journal of Operational Research.. Kamarthi & Pittne, 1999. BPWE. Neural Networks.. Lehtokangas, 1999. CBP. Neural Networks.. Cho & Chow, 1999. LS-PEN. Neurocomputing.. Ampazisa et al., 1999. Sistema dinámico. Neural Networks.. Yam & Chow, 2000. Cauchy’s - LA method. Neurocomputing.. Chaudhuri & Bhattacharya, 2000. STS. Neurocomputing.. Signal Processing, IEEE Transactions on.. Tabla 1.1: Algoritmos propuestos para mejorar el ABP entre los años 1990-2000.. 11.
(35) 1.2 Antecedentes Autor(s), Año. Método. Publicación. Lee et al., 2001. ESP. Mandische, 2002. ES. Neurocomputing.. Hoo et al., 2002. F-PM. Journal of Process Control.. Eom et al., 2003. FGBP. Neurocomputing.. Zweiri et al., 2003. PF. Neurocomputing.. Neurocomputing.. Abraham, 2004. MLEANN. Neurocomputing.. Wang et al., 2004. IAF. Neurocomputing.. Mohammad & Paves̆ié, 2004. BST. Neurocomputing.. Pernı́a-Espinoza et al., 2005. TAO-RBLA. Neural Networks.. Steil, 2006. BPDC. Neurocomputing.. Behera et al., 2006. LF I-II. Signal Processing, IEEE Transactions on.. Wang et al., 2007. IIALR-BOWUF. Automation in Construction.. Khashman, 2008. EmBP. Signal Processing, IEEE Transactions on.. Yang et al., 2008. SCBP. Signal Processing, IEEE Transactions on.. Zhang et al., 2008. PUNNs. Neurocomputing.. Silva et al., 2008. Z-EDM. Neural Networks.. Soliman & Mohamed, 2008. MBP. Journal of Parallel and Distributed Computing.. Cheng & Park, 2009. LPEBP. Expert Systems with Applications.. Kathirvalavakumar & Jeyaseeli, 2009. ANMBP. Neurocomputing.. Bai et al., 2009. BPAVSAF. Chaos, Solitons & Fractals.. Sun, 2010. LCFNN. Neural Networks.. Tabla 1.2: Algoritmos propuestos para mejorar el ABP entre los años 2001-2010.. 12.
(36) 1.3 Motivación. 1.3.. Motivación. La principal motivación de esta investigación es mejorar los problemas de lentitud, convergencia y de exactitud en la clasificación del Algoritmo de Retropropagación (Algoritmo de Backpropagation, ABP). Los inconvenientes del mencionado algoritmo han dado lugar a un gran número de investigaciones tratando de superar estos problemas. Las investigaciones realizadas hasta los momentos se podrı́an organizar en dos categorı́as. La primera categorı́a incluye el desarrollo de técnicas heurı́sticas, basadas en el estudio de las propiedades de rendimiento distintivas del ABP en general. Estas técnicas heurı́sticas incluyen ideas tales como la variación de la tasa de aprendizaje, usando momentum, el ajuste de la ganancia de la función de activación, y la optimización de la topologı́a de la red neuronal. La otra categorı́a de investigación ha usado, aplicado y desarrollado algoritmos de optimización cada vez más sofisticados, basados en técnicas estándar de optimización numérica para mejorar el aprendizaje del ABP. Sin embargo, a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavı́a no existe una solución optima, que se pueda aplicar a todos los problemas. En está Tesis Doctoral se propone una alternativa para mejorar algunas de estas deficiencias. El algoritmo propuesto, está basado en la Metaplasticidad Artificial y es aplicado a un Perceptrón Multicapa (AMMLP). Estamos conciente de que el algoritmo propuesto AMMLP, no resolverá por completo las limitaciones antes mencionadas del ABP, pero si estamos convencidos de que será un alternativa muy interesante, fácil de implementar y de aplicar, que reducirá el tiempo de cómputo y el número de iteraciones durante la fase de entrenamiento, con lo que conseguirá un entrenamiento mucho más eficiente y con muy alto nivel de exactitud en la clasificación. La segunda motivación es aplicar y verificar la utilidad práctica del algoritmo propuesto de la Metaplasticidad Artificial en un Perceptrón Multicapas (AMMLP). En este sentido el AMMLP se utilizará para la clasificación de objetos en señales en 1-D y 2-D y para ello se usara bases de datos estándar de diferentes ámbitos que permitan comprobar el rendimiento, la rapidez de convergencia y la exactitud del algoritmo propuesto. 13.
(37) 1.4 Objetivos. 1.4.. Objetivos. 1.4.1.. Objetivo General. Aplicar y optimizar el algoritmo basado en la Metaplasticidad Artificial en un Perceptrón Multicapa (AMMLP) para la clasificación de objetos en señales 1-D y 2D. Mejorar la lentitud y convergencia del Algoritmo de Retropropagación, y además obtener un alto nivel de exactitud en la clasificación.. 1.4.2.. Objetivos Especı́ficos. Seguidamente se indican los objetivos especı́ficos que se formularon para esta investigación y que sustentan esta tesis.. 1. Definir la metaplasticidad biológica. Relacionar la metaplasticidad con la plasticidad, la plasticidad intrı́nseca, la memoria y el aprendizaje.. 2. Explicar e implementar el modelo neuronal basado de la Metaplasticidad Artificial en un Perceptrón Multicapas (AMMLP).. 3. Optimizar en la medida de lo posible los parámetros relacionados el modelo de la Metaplasticidad Artificial propuesto, con la finalidad de hacer más eficiente el mencionado algoritmo.. 4. Aplicar la Metaplasticidad Artificial a diferentes problemas de alto impacto relacionados con la clasificación de patrones, para comprobar el rendimiento y la exactitud en la clasificación del algoritmo AMMLP.. 5. Comparar las prestaciones del modelo neuronal basado en la Metaplasticidad para la clasificación de objetos en señales 1-D y 2-D con el Algoritmo de Retropropagación tradicional y con otros algoritmos aplicados recientemente a los mismos problemas.. 14.
(38) 1.5 Estructura de la Tesis. 1.5.. Estructura de la Tesis. Se ofrece a continuación un pequeño resumen de lo que se discutirá en cada uno de los 8 capı́tulos, incluido éste que conforman este trabajo. Los primeros 4 capı́tulos tienen carácter teórico e informativo y los restantes presentan un enfoque práctico del método propuesto.. En el presente Capı́tulo 1, se hace una pequeña introducción del tema a tratar, se presentan los objetivos que se consideraron para la elaboración de la presente investigación, ası́ como se justifica la idoneidad de este estudio, además se muestra el estado del arte de esta investigación.. En el Capı́tulo 2 se presenta una introducción general a las Redes Neuronales Biológicas y Artificiales, se definen ambas redes, se mencionan las diferentes tipos de redes neuronales artificiales, los aprendizajes y las arquitecturas bajo las cuales funcionan las mencionadas redes.. En el Capı́tulo 3 se describirá en detalle el Perceptrón Monocapa y Multicapa, debido a que el modelo propuesto de la Metaplasticidad Artificial se implementará en un Perceptrón Multicapa. De tal manera que veremos sus caracterı́sticas, limitaciones y el algoritmo tı́pico usado para entrenar a este tipo de red (Algoritmo de Retropropagación).. En el Capı́tulo 4 se explicará la propiedad biológica de la Metaplasticidad, conceptos, funciones, mecanismos que la generan. También se definirán y explicarán otras propiedades biológicas que están relacionadas con la Metaplasticidad, como por ejemplo la Plasticidad y la Plasticidad Intrı́nseca que permitirá entender mejor la Metaplasticidad biológica y además facilitará comprender el modelo neuronal basado en la Metaplasticidad Artificial en un Perceptrón Multicapa (AMMLP) propuesto es esta tesis.. 15.
(39) 1.5 Estructura de la Tesis. Los capı́tulos anteriores son básicamente la formalización de conceptos e ideas que permitirán comprender los siguientes capı́tulos. Los capı́tulos que se describen a continuación constituyen el aporte original de esta tesis:. En el Capı́tulo 5 se presenta el modelo propuesto de la Metaplasticidad Artificial, se muestra la relación existente entre la metaplasticidad artificial y la teorı́a de la información de Shannon, se plantea la sustentación matemática del modelo, se implementa el modelo AMMLP, se describe el algoritmo AMMLP, ası́ como también se presenta la selección de la mejor estructura de red neuronal para el modelo propuesto.. En el Capı́tulo 6 se presentan los experimentos y los resultados obtenidos utilizando el AMMLP descrito en el capı́tulo anterior. El AMMLP se ha aplicado a cinco diferentes problemas de alto impacto en áreas como la Médica, Finanzas e Industrial y que estan relacionados con la clasificación de patrones.. En el Capı́tulo 7 se presentan las principales conclusiones originadas de los aportes realizados y de los resultados experimentales obtenidos, y una breve discusión de los mismos. En el Capı́tulo 8 se presentan las contribuciones originales de esta tesis, ası́ como también se presenta una lista detallada de las lı́neas futuras de investigación que se derivan a partir de los trabajos que se han desarrollando y descrito en esta tesis.. 16.
(40) Capı́tulo 2. Redes Neuronales Artificiales El cerebro es un procesador de información con unas caracterı́sticas muy notables: es capaz de procesar a gran velocidad grandes cantidades de información procedentes de los sentidos, combinarla o compararla con la información almacenada y dar respuestas adecuadas incluso en situaciones nuevas. Dentro de todas las capacidades del cerebro humano la más impresionante de todas ellas es su capacidad de aprender a representar la información necesaria para desarrollar el resto de sus actividades propias sin instrucciones explı́citas para ello.. Aunque todavı́a se ignora mucho sobre la forma en que el cerebro aprende a procesar la información, se han desarrollado modelos que tratan de imitar este proceso. Estos modelos reciben el nombre de Redes Neuronales Artificiales, RNA (Artificial Neural Network, ANN). En la siguiente subsección (2.0.1) se hablará de las neuronas biológicas y luego, en forma amplia y detallada de las RNA (subsección 2.0.2).. 2.1.. Neuronas Biológicas. Como la neurona biológica, es la célula básica del sistema nervioso, se analizará brevemente su funcionamiento para comprender el de las neuronas artificiales y la analogı́a entre las RNAs y redes biológicas.. 17.
(41) 2.1 Neuronas Biológicas. El cerebro humano continuamente recibe señales de entrada de muchas fuentes y las procesa a manera de crear una apropiada respuesta de salida. Nuestros cerebros cuentan con millones de neuronas que se interconectan para elaborar “Redes Neuronales”. Estas redes ejecutan los millones de instrucciones necesarias para mantener una vida normal.. La investigación detallada de la estructura interna de las células nerviosas, especialmente después de la invención del microscopio electrónico, ha revelado que todas las neuronas están constituidas por las mismas partes básicas, independientemente de su tamaño y forma. Estas neuronas tienen tres componentes principales, las dendritas, el cuerpo de la célula o soma, y el axón, en la Figura 2.1 se puede apreciar la estructura básica de una neurona biológica.. Cuerpo celular o soma. Nucleo. Axon. Terminal del Axon. Dendrita Sinapsis. Figura 2.1: Estructura básica de una neurona biológica.. Las dendritas forman una estructura de filamentos muy fina que rodea el cuerpo de la neurona. El axón es un tubo largo y delgado que se ramifica en su extremo en pequeños bulbos finales que casi tocan las dendritas de las células vecinas. Del extremo del axón nacen otras ramificaciones, mediante las cuales la neurona se comunica con otras neuronas, produciéndose la sinapsis. Las neuronas, a través de sus dendritas y axón, reciben señales eléctricas, pequeños impulsos provenientes de otras neuronas o de ellas mismas si son neuronas externas. Ésta integra de alguna 18.
(42) 2.1 Neuronas Biológicas. forma todas las señales que le llegan, y puede excitarse, provocando un impulso que le será transmitido a otras neuronas, o inhibirse, lo que atenuará el impulso recibido o simplemente lo anulará. La neurona recibe entonces a cada instante señales tanto inhibidoras como excitadoras, provenientes de todas sus sinapsis. La integración de los efectos excitadores con los inhibidores (podrı́a entenderse como la suma de sus entradas) determina si la neurona será o no estimulada, es decir, si emitirá un impulso, o un tren de ellos, a que velocidad, o si no lo emitirá.. El aprendizaje se basa en las relaciones entre millones de neuronas del cerebro. Una vez que van conociendo hechos, las neuronas van relacionándose entre sı́ a través de sus sinapsis, haciéndose éstas inhibidoras o excitadoras de acuerdo con el estı́mulo determinado, y produciendo entonces respuestas frente a determinados hechos o situaciones. Van “conociendo” hechos porque, ante una determinada situación, son ciertas neuronas externas las que reciben el primer estı́mulo, las que de acuerdo con la fuerza y localización de éste, se activarán o no, comenzando una larga cadena absolutamente relacionada entre millones de neuronas, las que llegarán al cerebro para producir una determinada respuesta. Si las neuronas externas que recibieron el primer estı́mulo son otras, su contacto con la segunda “capa” de neuronas será diferente a la respuesta anterior, o bien si la intensidad de la excitación fue distinta, producirán diferentes reacciones.. Algunas de las estructuras neuronales son determinadas en el nacimiento, otra parte es desarrollada a través del aprendizaje, proceso en que nuevas conexiones neuronales son realizadas y otras se pierden por completo.. Esto quiere decir que, las estructuras neuronales van cambiando durante toda la vida, estos cambios consisten en el refuerzo o debilitamiento de las uniones sinápticas. De la sinapsis, de sus procesos, funcionamiento, de su relación con el aprendizaje y de su vinculación con la Metaplasticidad se hablará con detenimiento en el Capı́tulo 4 de esta tesis.. 19.
(43) 2.2 Redes Neuronales Artificiales. 2.2.. Redes Neuronales Artificiales. 2.2.1.. Definición de Red Neuronal. Darpa, define una red neuronal como un sistema compuesto de muchos elementos simples de procesamiento los cuales operan en paralelo y cuya función es determinada por la estructura de la red, el peso de las conexiones; realizándose el procesamiento en cada uno de los nodos o elementos de computo [57].. Según Haykin, una red neuronal es un procesador paralelo masivamente distribuido que tiene una facilidad natural para el almacenamiento de conocimiento obtenido de la experiencia para luego hacerlo utilizable. Se parece al cerebro en dos aspectos [2]: 1.. El conocimiento es obtenido por la red a través de un proceso de aprendizaje.. 2.. Las conexiones interneuronales conocidas como pesos sinápticos son utilizadas para almacenar dicho conocimiento. Kohonen, las define como redes de elementos simples (usualmente adaptativos). masivamente interconectados en paralelo y con organización jerárquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico [58].. En sı́ntesis se puede considerar que una Red Neuronal Artificial es un sistema de procesamiento de información que tiene ciertas caracterı́sticas de comportamiento en común con las redes neuronales biológicas. Las redes neuronales artificiales han sido desarrolladas como generalizaciones de modelos matemáticos del conocimiento humano o de la biologı́a neuronal, con base en los siguientes aspectos: 1.. El procesamiento de información se realiza en muchos elementos simples llamados neuronas.. 2.. Las señales son pasadas entre neuronas a través de enlaces de conexión.. 3.. Cada enlace de conexión tiene un peso asociado, el cual, en una red neuronal tı́pica, multiplica la señal transmitida. 20.
(44) 2.2 Redes Neuronales Artificiales. 4.. Cada neurona aplica una función de activación (usualmente no lineal) a las entradas de la red (suma de las señales de entrada pesadas) para determinar su señal de salida. Las RNAs han sido aplicadas en un gran número de problemas reales de com-. plejidad considerable. Su más importante ventaja es la de resolver problemas que son muy complejos para tecnologı́as convencionales, problemas que no tienen una solución determinı́stica o para los cuales una solución de este tipo es muy complicado encontrarla. En general, por ser una abstracción del cerebro biológico, las RNAs son buenas para resolver aquellos problemas que las personas solucionan adecuadamente, pero que los computadores no. Estos problemas, entre otros, incluyen reconocimiento de patrones y problemas de pronóstico (los cuales requieren el reconocimiento de una tendencia en unos datos).. 2.2.2.. La Neurona Artificial. Basándose en la descripción que la neurociencia hace del funcionamiento de las neuronas biológicas, se pasa a intentar simular el comportamiento de esta unidad básica de proceso de información. Ası́ tenemos que las unidades básicas de las RNA son las neuronas artificiales. Aunque hay varios tipos de neuronas diferentes, la más común es la de tipo McCulloch-Pitts. En la Figura 2.2 puede verse una representación de la misma.. X. 1 W. X. NEURONA i. sinapsis i1. cuerpo celular. Wi2 2. f() W ij. Xj. axón. yi. Salida. yi = f (. W in. Entradas. Wij Xi -. i. ). i Xn -1. dendritas. umbral. Figura 2.2: Representación de una neurona artificial tipo McCulloch-Pitts.. 21.
(45) 2.2 Redes Neuronales Artificiales. Una neurona artificial es un procesador elemental, en el sentido de que procesa un vector x̄(x1 , x2 , ...xN ), (x̄ ∈ Rn ) de entradas y produce un respuesta o salida única. Los elementos clave de una neurona artificial los podemos ver en la figura. anterior y son los siguientes: Las entradas que reciben los datos de otras neuronas. En una neurona biológica corresponderı́an a las dendritas. Aquı́ las señales eléctricas se convierten en valores numéricos (las componentes del vector x). Los pesos sinápticos wij ∈ R. Al igual que en una neurona biológica se establecen sinapsis entre las dendritas de una neurona y el axón de otra, en una neurona artificial a las entradas que vienen de otras neuronas se les asigna un peso, un factor de importancia. Este peso, que es un número, se modifica durante el entrenamiento de la red neuronal, y es aquı́ por, tanto, donde se almacena la información que hará que la red sirva para un propósito u otro. Una regla de propagación. Con esas entradas y los pesos sinápticos, se suele hacer algún tipo de operación para obtener el valor del potencial postsináptico (valor que es función de las entradas y los pesos y que es el que se utiliza en último término para realizar el procesamiento). Una de las operaciones más comunes es sumar las entradas, pero teniendo en cuenta la importancia de cada una (el peso sináptico asociado a cada entrada). Es lo que se llama suma ponderada, aunque otras operaciones también son posibles.. hi = (t) =. X. wij xj. (2.1). j. donde xj es el valor de la j-énesima entrada (input), wij son los pesos asignados a la conexión de las neuronas, j e i y hi es la salida de la neurona i.. Una función de activación. El valor obtenido con la regla de propagación, se filtra a través de una función conocida como función de activación y es la que nos da la salida de la neurona. Según para lo que se desee entrenar la red neuronal, se suele escoger una función de activación u otra en ciertas neuronas de la red. En la Tabla 1.1 se muestran las funciones de activación más usuales [2, 59].. 22.
(46) 2.2 Redes Neuronales Artificiales. Función. Rango. Gráfica f(x). Identidad. y=x. [−∞, +∞] x. f(x). Escalón. y = sig(x) y = H(x). Lineal a Tramos. Sigmoidea. x. {−0, +1}. −1 si x > −l y= x si l ≤ x ≤ −l +1 si x > +l y=. {−1, +1}. 1 1+e−x. f(x). [−1, +1]. -1. +1. x. f(x). [0, +1] x. y = tgh (x). [−1, +1] f(x). Gaussiana. y = Ae−Bx. 2. [0, +1] x. f(x). Sinusoidal. y = Asen(ωx + ϕ). [−1, +1] x. Tabla 2.1: Funciones de activación.. En muchas ocasiones la razón para la aplicación de una función de activación distinta de la identidad surge de la necesidad de que las neuronas produzcan una salida acotada. Esto desde un punto de vista de similitud con el sistema biológico, no es tan descabellado, ya que las respuestas de las neuronas biológicas están acotadas en amplitud. Además cada neurona tiene asociado un número denominado bias o umbral, que puede verse como un número que indica a partir de que valor del potencial postsináptico la neurona produce una salida significativa. Este termino θ ∈ R es añadido a la suma ponderada que posteriormente se transforma en la 23.
(47) 2.2 Redes Neuronales Artificiales. función de activación, es decir, se interpreta como una entrada más de la neurona.. y=f. N −1 X i=0. wi xi − θ. !. =f. N X i=0. !. wi xi. (2.2). donde y es la salida de la red, f es la función de activación, N, es el número de componentes del vector de entrada, wi , es el peso (weights) de la conexión entre la i-ésima entrada y la neurona, xi , es el valor de la i-ésima entrada (input), y θ, es el valor umbral (threshold).. La caracterı́stica más importante de las redes neuronales artificiales, es la capacidad que tienen estas unidades de procesamiento simple para aprender y retener la información de su entorno. El aprendizaje en las RNA se discute en la próxima subsección (2.0.3.).. 2.2.3.. Aprendizaje de las Redes Neuronales Artificiales. La propiedad más importante del sistema nervioso es su capacidad de aprender de su entorno y mejorar ası́ su rendimiento. En el contexto de aprendizaje en redes neuronales artificiales, el aprendizaje puede definirse como: “Un proceso mediante el cual los parámetros libres de una red neuronal se han adaptado a través de un proceso de simulación al medio ambiente en el que se inserta la red” [60]. Del mismo modo, una RNA también posee esta importante función. Con la ayuda de un procedimiento de aprendizaje, la RNA puede extraer y almacenar la información de los datos puestos a disposición de la red. La información extraı́da se almacena en la red a través de los pesos de conexión, y puede ser recuperado para su uso futuro.. Una regla de aprendizaje define exactamente cómo los pesos de la red deben ser ajustados (actualizados) entre los sucesivos ciclos (épocas) de entrenamiento de acuerdo con el entorno en que se encuentra la red. El aprendizaje de las RNAs puede ser supervisado o no supervisado.. El aprendizaje en las RNAs con un profesor (Aprendizaje Supervisado), o sin un profesor (Aprendizaje no Supervisado). En el aprendizaje supervisado a 24.
Documento similar
Para recibir todos los números de referencia en un solo correo electrónico, es necesario que las solicitudes estén cumplimentadas y sean todos los datos válidos, incluido el
Con respecto al primero de ellos, el destinado al respeto y despliegue normativo de los derechos fundamentales, vale decir que el deber de la autoridad jurídica eventual-
Sólo que aquí, de una manera bien drástica, aunque a la vez coherente con lo más tuétano de sí mismo, la conversión de la poesía en objeto -reconocida ya sin telarañas
Pero la realidad se impone por encima de todo; la misma Isidora es consciente del cambio: «Yo misma conozco que soy otra, porque cuando perdí la idea que me hacía ser señora, me
Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria.. Células de origen humano o sus derivados que
Se hace presente el instrumento a ser aplicado en la empresa CONSUTIC dentro del área de Sistemas informáticos en los servicios de mesa de ayuda mediante un
d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que
La Ley 20/2021 señala con carácter imperativo los procesos de selección. Para los procesos de estabilización del art. 2 opta directamente por el concurso-oposición y por determinar