Predicción de carga eléctrica a corto plazo en el área occidental de la República Mexicana mediante el uso de redes neuronales artificiales

Texto completo

(1)INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY CAMPUS ESTADO DE MÉXICO. BIBLIOTECA DIVISIÓN DE GRADUADOS E INVESTIGACIÓN MAESTRÍAS EN INGENIERÍA. TESIS PREDICCIÓN DE CARGA ELÉCTRICA A CORTO PLAZO EN EL ÁREA OCCIDENTAL DE LA REPÚBLICA MEXICANA MEDIANTE EL USO DE REDES NEURONALES ARTIFICIALES.. ASPIRANTE:. CELESTINO SÁNCHEZ FERNÁNDEZ. ASESOR:. DR. EDUARDO DE JESÚS GARCÍA GARCÍA. COMITÉ DE TESIS:. DR. EDGAR EMMANUEL VALLEJO CLEMENTE M. En C. Ma. DE LOS ÁNGELES JUNCO REY. MATRÍCULA DEL ASPIRANTE:. ESPECIALIDAD:. CIENCIAS FECHA: 10 de Marzo del 2000..

(2) 3. RESUMEN. En este trabajo, se muestran los resultados de tres modelos neuronales artificiales diferentes, aplicados en la predicción a corto plazo (horaria) de la carga eléctrica a consumir por la región occidental de la República Mexicana.. Se recopilaron 17,520 datos horarios de carga correspondientes a los años 1996. y 1997 de la citada región , esta muestra se introdujo como patrón a 3 modelos y funciones de aprendizaje: "backpropagation" (retropropagación), "cascade correlation" (correlación en cascada) y "reéurren,t .c~scade correlation" (correlación en cascada recurrente). En cada uno de ellos se usaron 'diferentes arquitecturas y parámetros diversos a fin de encontrar, en primera instancia, la configuración que , dentro de cada modelo, nos entregara el mejor desempeño y a continuación las ventajas y desventajas encontradas en cada modelo comparándolo con los otros dos.. Posteriormente se indica cuál fue el modelo , arquitectura y configuración con mejor desempeño y se hace un análisis del porqué de este resultado.. En diversas ocasiones se han realizado pruebas entre distintos modelos de redes neuronales artificiales pero muy pocas entre arquitecturas tan diferentes como las aquí mostradas, permitiéndonos poder comparar entre filosofías de aprendizaje como las redes de alimentación hacia delante (feed-forward), las redes de correlación en cascada (cascade correlation) cuyo algoritmo nos permite irlas formando al mismo tiempo que aprenden y las redes recurrentes con su característica de poseer una memoria de corta duración.. El resultado de esta experimentación nos permite proponer un método de predicción alterno para la toma de decisiones que realiza el personal de la Comisión Federal de Electricidad (C.F.E.) en el Centro Regional de Control de Energía del área occidental del país..

(3) 4. En nuestro trabajo nos permitimos usar el nombre de cada una de esas arquitecturas en inglés debido a que son mejor conocidas en esos términos..

(4) 5. ÍNDICE DE CONTENIDO Página AGRADECIMIENTOS ................................................................................................. 2 RESUMEN .................................................................................................................. 3 ÍNDICE DE CONTENIDO ...... .. ............... ... ... .. ............... .. .................... .................. ... .. 5 ÍNDICE DE FIGURAS ..................................................................................................7 1. INTRODUCCIÓN ....................................................................... ..................... 10 1.1 ANTECEDENTES .................................................................................... 1O. ~ .' ~~. ~. ,:. ',. 1.2 MARCO DEL PROYECTO .. ... .... ..... .. ......... ..................................... ......... 13 1.3 DESCRIPCIÓN DEL PROBLEMA. ........................................................... 17 1.4 OBJETIVOS ............................................................................................. 18 1.5 JUSTIFICACIÓN ............................................... ............................. .. ......... 19 2.. MARCO TEÓRICO ............... ...... ................... .. ..................................... .... ..... 20 2.1 CARGA ELÉCTRICA. ............................................................................... 20 2.2 HISTORIA DE UNA RED NEURONAL. ... ..... ..... ...... .. .. ..... ........................ 25 2.3 ¿QUÉ ES UNA RED NEURONAL ARTIFICIAL? ...................................... 27 2.3.1. INSPIRACIÓN EN LA NEUROCIENCIA. ........ ......................... ..... 28 2.3.2. NEURONAS ................. ................................................................. 28 2.4 ELEMENTOS DE UNA RED NEURONAL ARTIFICIAL. ...... ... ..... ............ 31 2.5 REDES FEEDFORWARD Y RECURRENTES .... ....... ....... ...... ................. 35 2.5.1 REDES FEEDFORWARD ..................................... ........................... 35 2.5.2 REDES RECURRENTES ... ... .. .. ... ... .. ....... .. .... .. ... ....... ..................... 38 2.6 ALGORITMOS DE APRENDIZAJE EMPLEADOS ............................ .... ... 39 2.6.1 BACKPROPAGATION (RETROPROPAGACIÓN) ... ....................... 39 2.6.2 CASCADE CORRELATION (CORRELACIÓN EN CASCADA) ....... 46 2.6.3 RECURRENT CASCADE CORRELATION (CORRELACIÓN EN CASCADA RECURRENTE) .............................. .... ..................................... 52 2.7 SIMULADOR USADO EN LA PREDICCIÓN ............... .................. .. .... ... .. 54 2.8 MEDICIÓN DEL ERROR. ........ .................... .... ................... ... .... ................ 56. 3. DESARROLLO ............................ .... ............. ........ ........... ......... ....................... 57 3..1 MUESTRA DE DATOS ............. ...... .. ... ............................ ... ...... ... .... .. .. .... 57 3.2 NORMALIZACIÓN DE LOS DATOS ..... .. .. ............................ .. ..... .. ... ...... 57 3.3 DISEÑO DE LOS EXPERIMENTOS ................. ...................................... . 58.

(5) 6. 3.4 PROCESO DE EXPERIMENTACIÓN Y RESULTADOS ......................... 59 3.4.1. FEED-FORWARD BACKPROPAGATION ................................... 59 3.4.2. CASCADE CORRELATION ......................................................... 69 3.4.3. RECURRENT CASCADE CORRELATION .................................. 77 4. ANÁLISIS DE RESULTADOS ... .................................................................. ; .. 82 4.1 EL PROBLEMA DE LA AMPLITUD DEL PASO .. .. ................. .. .. ... ........ 83 4.2 EL PROBLEMA DEL OBJETIVO MÓVIL. ............................................... 84 5. CONCLUSIONES ........................................................................................... 87 6. BIBLIOGRAFÍA ................. ....................................................... ..... ... .............. 90 7. ANEXO "A" (GRÁFICAS DE CARGA) .......................................... ................... 92.

(6) 7. ÍNDICE DE FIGURAS. Figura 1.1. Crecimiento de las ventas del sector eléctrico contra el PIS de 1970 a 1997 ....................................................... ..... .... ......... ... .... 13. Figura 1.2. Comportamiento de la demanda nacional de energía por sector .... 14. Figura 1.3. División territorial del sistema eléctrico en la República Mexicana .. 15. Figura 1.4. Sistemas eléctricos y red principal de interconexión ........................ 16. Figura 2.1. Circuito RL paralelo y el correspondiente diagrama vectorial. ......... 22. Figura 2.2. Voltaje, corriente en fase con el voltaje y la potencia resultante dibujados con respecto al tiernpo ............. .......... ............. 24. Figura 2.3. Voltaje, corriente atrasando el voltaje en 90° y la potencia resultante dibujados con respecto al tiempo.. ............. ..... 25. Figura 2.4. Dibujo esquemático de una neurona típica ............... .... .................. 29. Figura 2.5. Diagrama esquemático de una neurona artificial......... .................. 30. Figura 2.6. Activación, salida, entrada neta y patrón de conexión de un nodo o neurona u, ... .. .... .. ....... ... .. ..... ...... . .. ...... .. ... ..... . ... .. .... 33. Figura 2.7. (a) Un simple perceptrón con una sola capa. (b) Perceptrón de dos capas..... ... .................... ..... ....... ......... .. ..... ......... .. ... .... ........ 35. Figura 2.8. Red recurrente.. .... ..... ............... ......... ......... ............ ... ... .................. 38. Figura 2.9. Red feedforward de dos capas.................. .. .................................. 40. Figura 2.1 O Arquitectura de cascada... .... .. ........... .. .... .. .. ..... .... .... .. ............ .. ..... Figura 3.1. 47. Topología inicial compuesta de 5 unidades en la capa de entrada, 1O en la oculta y 1 a la salida... ............. .. ....... .................. 59. Figura 3.2. Topología final a usar en la experimentación...... .... ... .. ....... ... ........ 60. Figura 3.3. Primer experimento en donde se encontró un mejor desempeño para una arquitectura de 3 capas ocultas contra la de una sola ... ........ .... .......... ............. ... ... .... .... ...... ........ ..... 61. Figura 3.4. Misma prueba que en la figura anterior pero con un número mayor de iteraciones: 25,000 ........... .... ......... .. ........... ........ 62. Figura 3.5. Variación del paso de aprendizaje y momentum ....... ... .... .... .... ...... 63.

(7) 8. Figura 3.6. Comparación entre las curvas anteriores y una generada con un paso de 1.2 y momentum de 0.4 .... ................. ... .............. .. 64. Figura 3.7. Se realizó una prueba variando por etapas los valores de paso de aprendizaje y momentum............................................ 65. Figura 3.8. Prueba con valores en paso de aprendizaje y momentum pequeños................................................... ......... .... .... .................... 66. Figura 3.9. Variación del paso de aprendizaje manteniendo el momentum constante........................................................................................ 67. Figura 3.1 O Ensayo con una topología de 5 capas ocultas............................... 68 Figura 3.11. Primera prueba donde aparecen las curvas de dos redes............. 70. Figura 3.12 Se muestran dos curvas con redes de 80 unidades ocultas.......... 71 Figura 3.13 Se incrementó el número de unidades ocultas y se varió el error máximo para las unidades de salida.. ................ ...... .......... 72 Figura 3.14 Desempeño de una red con mayor número de unidades ocultas .. 73 Figura 3.15 Comparación de las curvas de error de una arquitectura cascade correlation y backpropagation .......................................... 74 Figura 3.16 Generación de más unidades ocultas: 200... ... .. .. .. .. .. .. .. .. .. ... .. ..... .. 75 Figura 3.17 Presentación de dos curvas de error de dos redes...... .................. 76 Figura 3.18 Arquitectura con 100 unidades ocultas y 300 iteraciones de aprendizaje ......................... .... ....... ........... ............. ......... .... ..... ... 77 Figura 3.19 Primera prueba. con el algoritmo recurrent cascade. correlation donde se prueban 2 configuraciones .......... .. .... ... .......... 79 Figura 3.20 Curvas de error de dos configuraciones: 80 y 100 unidades ocultas ......... ............... .. .... .. ... .... ... ...... .... ... .......... ..... ....... . 80 Figura A.1. Gráfico de carga del mes de enero de 1996 .......... ...... .. .................. 92. Figura A.2. Gráfico de carga del mes de enero de 1997 .......... ..... .. ................... 93. Figura A.3. Gráfico de carga del mes de abril de 1996 ..... ................................. 93. Figura A.4. Gráfico de carga del mes de abril de 1997 ................... ................... 94. Figura A.5. Gráfico de carga del mes de julio de 1996 ...... ................................ 94. Figura A.6. Gráfico de carga del mes de julio de 1997 .................................. .... 95. Figura A.7. Gráfico de carga del mes de octubre de 1996.............. ... ...... .. ....... 95. Figura A.8. Gráfico de carga del mes de octubre de 1997 ............ ... ................. 96.

(8) 9. Figura A.9. Curvas de datos reales y predecidos en el mes de enero de 1996........................................................... ......... 97. Figura A.1 O Curvas de datos reales y predecidos en el mes de abril de 1996.... .. ... .... ..... .... ..... ............. .. ...... ... .... ..... .......... .... ........ . 98 Figura A.11 Curvas de datos reales y predecidos en el mes de julio de 1996 ..................................................................... .. ....... ... .. ...... . 99 Figura A.12 Curvas de datos reales y predecidos en el mes de octubre de 1996............. .............. ............. ....................... .............. 100.

(9) 10. 1.. INTRODUCCIÓN.. 1.1. ANTECEDENTES. La producción, transmisión y distribución de la energía eléctrica es un reto al que los ingenieros electricistas siempre se han enfrentado. Una predicción precisa de carga a corto plazo resulta en ahorros de costos de operación e incremento en las condiciones de seguridad del sistema eléctrico, permitiendo a empresas de este ramo a comprometer sus fuentes de energía a fin de optimizar precios y prever un posible intercambio con otras empresas generadoras o de distribución .. Para entender porque existe un gran interés en encontrar y mejorar los métodos para la predicción de carga eléctrica a corto plazo, se puede analizar el equilibrio entre la producción/consumo considerando dos puntos de vista. En primer plano. el período de la planeación: entre más corto sea el período a predecir, más difícil es realizar modificaciones a los planes de producción de potencia. También existen limitaciones por retardos en el arranque de unidades generadoras, sistemas fuera de servicio por mantenimiento así como disponibilidad de combustibles y.

(10) 11. agua. En ese contexto, empresas aisladas tienen que. confiar de sus. propios medios de producción, debiendo predecir con anterioridad la demanda que se tendrá y la forma de suplirla; esto ha generado la firma de acuerdos entre compañías que permiten, en un momento dado, el intercambio de energía.. En México, en que la compañía que genera, transforma, transmite, distribuye y comercializa la energía eléctrica es una sola, este problema también se presenta ya que cada una de las regiones eléctricas deben satisfacer sus necesidades propias con las plantas de su jurisdicción y establecer coordinación con otras regiones para el citado intercambio de energía si es necesario.. El segundo punto de vista, el tipo de organización: para una compañía encargada de la distribución de energía, la cual la compra de un mayorista, las tarifas son bien conocidas, pero algunos otros costos marginales dependen en gran medida de la situación del mercado en el momento.. En forma. particular el. sobrepasarse del consumo. máximo. contratado puede llegar a ser extremadamente caro. Aunque en México este. punto. no. se. aplica. directamente. por. la. cuestión. tratada. anteriormente, no debe descartarse del todo, considerando el sentido que el sector eléctrico nacional va tomando rumbo a su privatización y. la. necesidad de que las empresas que tomen una parte de este rubro conozcan y prevean las necesidades de su jurisdicción.. La predicción realizada por los seres humanos hoy día es muy buena, aunque para llegar a cierto grado de exactitud se necesita de ·un verdadero experto con varios años de experiencia y especialización en el sector que le compete. Es aquí donde un sistema automático nos permite no depender tan estrechamente de un experto, permitiendo que casi cualquier persona pueda efectuar tal predicción con una exactitud.

(11) 12. considerable, en muy corto tiempo y con la posibilidad de manejar una gran cantidad de datos asociados a la predicción.. Aunque el uso de sistemas neuronales para la predicción de carga eléctrica no es un tema nuevo, el encontrar el modelo idóneo que nos permita efectuar una predicción con bajos valores de error, en tiempos considerables y para una cierta serie de tiempo, se torna interesante. Más aún si experimentamos sobre tres modelos con características de arquitectura y aprendizaje tan diferentes como los que aquí se presentan. Los sistemas que mejores resultados han dado y que por ende más han sido usados en diversas aplicaciones backpropagation. 1 ". son los llamados "feed-forward. en comparación con los otros dos presentados, con. características muy diferentes y con poca aplicación aún en mecanismos de predicción de carga eléctrica: "cascade correlation" 2 y su posibilidad de construirse al mismo tiempo que aprende, así como "recurrent cascade correlation"3, la que aunada a las características de generar sus unidades ocultas incluye la recurrencia como medio adicional para la disminución del error.. 1. Alimentación hacia el frente con propagación hacia atrás (retropropagación),. comúnmente conocido como "Feed-Forward Backpropagation". 2. Correlación en cascada, aunque por su popularidad se le llamará "Cascade. Correlation". 3. Correlación en cascada recurrente, aunque por su popularidad se usará su. traducción al inglés "Recurrent Cascade Correlation".

(12) 13. MARCO DEL PROYECT04 •. 1.2. La demanda de energía eléctrica la determinan varios factores. Los más importantes son el ritmo de la actividad económica, el crecimiento demográfico, el nivel de desarrollo, geográficas,. la. y. estructura. niveles. las condiciones climáticas y tarifarios;. además. cambios. tecnológicos tales como los avances en la eficiencia con que se utiliza la electricidad en los procesos productivos y en los aparatos eléctricos.. Las ventas de electricidad en México aumentaron de 81. 9 TWh en 1988 a 130.2 TWh en 1997, lo que representa una tasa de crecimiento media anual de 5.3% durante la última década. Dicho incremento de la demanda de energía eléctrica fue superior al ritmo poblacional y al del producto interno bruto, figura 1.1. ,-... é. 15 , - - - - - - - - - - - - - - - - - - - - - - - - - ,. ai. 2a, 10 t-~'---'...,::::~:::::-:::~a:::::;:.i~JS::""-------------i o ~ 5 1 -"-·.... · .......--~-"----_.,___¡-'--.........,__ -+-.....,._,.......__ ·e 'v ·¡;; ...=;.__ _ _. ~. o~---------:,...-+--',--,:-------+-+--~. d). \.~. -c. ~ -5 a). .•/. \/. V. ..._,... ,~ 1 1. /. 1-------------------------t. 1-. -. PIB. .e,. Ventas. Figura 1.1 Crecimiento de las ventas del sector eléctrico contra el PIB de 1970 a 1997.. La energía eléctrica en México se comercializa mediante una estructura tarifaría que integra 31 modalidades diferentes. En general, las tarifas se agrupan en cinco sectores según el uso: residencial, comercial, servicios, industrial y agrícola . 4. Todos los datos aquí presentados fueron obtenidos del boletín "Prospectiva. del Sector Eléctrico 1998-2007" editado por la Secretaría de Energía del Gobierno Federal..

(13) 14. De las ventas totales de energía eléctrica hechas por los suministradores en el país durante 1997, 59.9% fue destinado a la industria, 22.7% a los usuarios residenciales, 7.6% al sector comercial, 5.9% al riego agrícola y 3.9% al sector de servicios. El número de usuarios del sector industrial representa sólo 0.41 % del total; sin embargo este sector demanda alrededor del 60% de las ventas. Por su parte, el número de usuarios residenciales equivale a 88.4% del total y su consumo representa menos de la cuarta pa,rte de la demanda nacional de electricidad . Ambos sectores, industrial y r3sidencial, absorben más de. " vendida. cuatro quintas partes de la energía. ,,..------l. Z0,00 O 70,00 O 60,000 ~0,000. 8. e_... -. -. - ----. -. -. -~. 40,000. ---·--·-. ~0,000 2.0,000. '. - -. -. _ ...,~. 10,000 IC. ><. -. .. -. ><. -+- ~1idu1.cial _.,._ Comn~lll. ><. -. -+-. .. -:-. = ". ". Snvicios --hldwtii.al -<>- Bom bu ~oola. Figura 1.2 Comportamiento de la demanda nacional de energía por sector.. Adicionalmente, las ventas de energía eléctrica durante 1997, sin considerar la exportación, presentaron un aumento de 8,681 GWh respecto a 1996, es decir un incremento de 7.1 %. Este incremento lo ocasionó principalmente la demanda del sector industrial, la cual observó un crecimiento de 9.7% en relación con el año anterior, seguido por los sectores comercial y residencial con incrementos de 5.3% y 4%, respectivamente..

(14) 15. Para el estudio regional del mercado eléctrico, el país se divide en 115 zonas y 12 pequeños sistemas aislados, seis de los cuales reciben energía de importación. Las zonas se agrupan en nueve áreas del sistema eléctrico (figura 1.3): noroeste, norte, noreste, occidental, central, oriental, peninsular, baja california y baja california sur.. 1 Noreste 2 Norte 3 Noreste 4 Occidental 5 Central 6 Oriental 7 Peninsular 8 Baja California 9 Baja California Sur. Figura 1.3. División territorial del sistema eléctrico en la República. Mexicana.. Durante 1997 las regiones con mayor consumo eléctrico fueron la occidental (27,986 GWh), la central (27,971 GWh), la noroeste (22,209 GWh) y la oriental (21 ,198 GWh). Adicionalmente, las áreas que presentaron una mayor tasa de crecimiento promedio anual de la demanda durante el período 1988-1997 fueron baja california (8%), peninsular (7.7%), occidental (6.8%) y noroeste (6.7%)..

(15) 16. El sistema de generación está integrado por centrales de diferentes tipos que utilizan distintos combustibles o fuentes de energía primaria. En diciembre de 1997, la capacidad instalada total alcanzó 34,815 MW distribuida en las diferentes áreas , figura 1.4.. SISTEMAS ELECTRICOS Y RED PRINCIPAL DE IN TE RCONEXION lo DE ENERO DE 19'D. .,.._ t:::~: a--. .. ~. f•r.:... f !!~=·. º-,' º--. [E] :_ .. t==-:' ~ ----~. =-~· ·--·-·--. Figura. 1.4.. ........._ ... ,,&.,._,.... -·-·-·Sistemas. eléctricos. y. red. principal. de. interconexión.. (Subdirección de programación C.F.E.). En este trabajo se escogió la región occidental del país para efectuar la predicción como una recomendación de personal de C.F.E. que apoyó esta tesis principalmente por la importancia de esta región en el sistema eléctrico nacional y la diversidad de cargas que presenta: industrial, por la gran cantidad de industrias presentes en el estado de Jalisco y Michoacán; residencial, contando como principal polo las zonas urbanas de Jalisco como Guadalajara, de Guanajuato como León, etc. y su importante carga eléctrica de bombeo por la zona agrícola del bajío (Guanajuato, Michoacán y Jalisco)..

(16) 17. 1.3. DESCRIPCIÓN DEL PROBLEMA. La predicción de la demanda es una tarea de gran importancia para las compañías eléctricas ya que el éxito en este trabajo resulta en una operación y planeamiento económico, seguro y redituable en los sistemas de potencia.. El período de predicción de carga puede ser un mes, un año o más para una predicción a mediano o largo plazo y una semana o menos para una predicción a corto plazo. Las predicciones a largo y mediano plazo son utilizadas, preferentemente, para el planeamiento de la generación, expansión del sistema de transmisión y calendarización anual de los trabajos de mantenimiento en las diferentes plantas generadoras.. Un sistema de predicción a corto plazo nos permite prever un despacho. de. carga. eficiente. manejando. las. diferentes. plantas. generadoras y los diversos problemas de mantenimiento que se puedan presentar a tan solo algunas horas adelante.. En nuestro país la C.F.E. calcula su demanda total nacional en base a los reportes diarios que envían cada uno de los centros regionales de control de energía. Es en ellos donde se lleva acabo la predicción regional. Y en la región propuesta para este trabajo nos dimos cuenta que esta labor es llevada a cabo por personas altamente capacitadas y expertas con varios años de experiencia en el comportamiento de la carga en ese sector.. Se han propuesto muchos métodos para la predicción de carga en el ámbito científico y comercial mundial aunque la eficiencia y rapidez del ser humano no ha sido superada por completo. Pero también es cierto que la dependencia desarrollada por una cierta tarea hacia el ser humano no es muy conveniente: quien realice esta actividad . tiene que ser una persona con varios años de experiencia en el comportamiento de la.

(17) 18. demanda en esa región, el cálculo y exactitud dependen del estado físico y mental del experto así como de su disponibilidad, es decir, se presenta la problemática de tener que depender de una persona o varias para efectuar este trabajo.. Surge así necesidad de buscar un sistema automático confiable con valores de error menores a los obtenidos por el elemento humano y con tiempos de respuesta también bajos; los sistemas conexionistas han demostrado ser muy útiles para estos trabajos.. Investigaciones anteriores como las de Sharda-Patil (1990). y. Tang-Fishwick han mostrado que la relativa eficiencia de las redes neuronales varía sustancialmente para series de tiempo diferentes. Debido a esto se hace necesaria la búsqueda entre diferentes modelos para encontrar el que nos entregue los mejores resultados. Mas aún dentro del modelo que mejor se comporte tendremos que buscar la configuración que mejor desempeño tenga en la disminución del error en tiempos considerables.. 1.4. OBJETIVOS. Aplicar una serie de tiempo específica de valores de carga del área eléctrica occidental de la República Mexicana en tres modelos de redes neuronales artificiales : feed-forward backpropagation (retropropagación), cascade correlation (correlación en cascada) y recurrent cascade correlation (correlación en cascada recurrente) con variantes en cuanto a parámetros y arquitectura en cada uno de ellos..

(18) 19. Encontrar un modelo neuronal artificial que realice una predicción de carga eléctrica de manera eficiente, cuyos valores de error nos permitan confiar en un sistema neuronal como una adecuada herramienta de apoyo para la toma de decisiones del personal responsable de la predicción de carga en cada uno de los centros regionales de control de energía de la C.F.E.. 1.5. JUSTIFICACIÓN. Este trabajo se hace necesario para proveer a una institución tan importante a nivel nacional y para el desarrollo estratégico del país, de una herramienta computacional. eficiente que le permita no depender tan. directamente de la subjetividad del ser humano y como apoyo en la toma de decisiones.. Por otra parte este trabajo contribuye a la serie de investigaciones que en el ámbito científico se han estado haciendo sobre la predicción de carga eléctrica sobre diferentes modelos así como las bondades y dificultades que existen entre ellos..

(19) 20. 2.. MARCO TEÓRICO.. 2.1. CARGA ELÉCTRICA. Se puede suponer que las formas de onda de voltaje en las barras de una red son puramente sinusoidales y de frecuencia constante. Gran parte de la teoría a continuación se desarrolla con representaciones vectoriales de voltajes y corrientes usando las letras mayúsculas V e I para indicar estos vectores. La magnitud de los vectores está indicada en barras verticales encerrando V e I , esto es. IV I. e. I I 1-. Las letras. minúsculas indican valores instantáneos. Donde se especifique un voltaje generado (fuerza electromotriz o fem), se usa la letra E en vez de la V para resaltar el hecho de que es una fem y no una diferencia de potencial la cual está entre dos puntos considerados.. Si el voltaje y la corriente se expresan como funciones del tiempo, tales como. V=. 14] .4 COS (m I + 30"). y i=7 .07cosmt. Sus máximos valores son obviamente V,,"ª. =141.4 V,. l,,. 11. L\. = 7.07 A. respectivamente. Cuando los subíndices máx con V e I se usan para.

(20) 21. indicar valores máximos las barras verticales no son necesarias. El término magnitud se refiere al valor cuadrático medio (vcm o rms) el cual es igual al valor máximo dividido por. .J2.. Es decir, para las expresiones. de arriba para V e 1 .. iV. 1. = 100 V y. I. I =5A 1. Estos son los valores leídos por los voltímetros y amperímetros comunes.. Otro nombre, para el valor vcm o rms es "valor efectivo". La potencia media disipada en una resistencia es. IIJ. 2. R . Para expresar estas. cantidades como vectores se requiere de una referencia. Si la corriente es el valor de referencia. 1 = 5 cis 0° = 5 + jO A. El voltaje que adelanta el vector de referencia en 30 ° es. V = I 00 cis 30 = 86.6 + }50 V. Por supuesto, puede no escogerse como vector referencia el voltaje a la corriente cuyas expresiones instantáneas son v e i , en cuyo caso sus expresiones vectoriales incluyen otros ángulos.. Aunque la teoría fundamental de la transmisión de energía describe su transporte en términos de la interacción de los campos eléctricos y magnéticos, los sistemas de potencia casi siempre se refieren a la descripción de la razón de cambio de la energía con respecto al tiempo (lo cual es la definición de la potencia) en términos de voltaje y corriente. La unidad de potencia es el vatio o watt. La potencia en watts que absorbe una carga en cualquier instante es el producto de la caída de tensión.

(21) 22. instantánea en voltios a través de la carga y la corriente instantánea en amperios dentro de la carga. Si las terminales de la carga se designan a y n. y si el voltaje y la corriente se expresan por : v ,m -- Vm:h cos. y. OJ I. ( 111. =. lmáx COS. (w I - 0). la potencia instantánea es :. p =·v,mi,111 =. v/1/{l\'. l,,,(LT cos (JJ{ cos (wt-0). (ec. 2.1). El ángulo 0 en estas ecuaciones es positivo para atraso en corriente con respecto al voltaje y negativo para adelanto en corriente. Un valor positivo de p expresa la razón a la cual la energía es absorbida por la parte del sistema entre los puntos a y n . La potencia instantánea es obviamente positiva cuando cuando v,111. v"". e i,111 son positivas pero es negativa. o ( 111 son opuestas en signo. La potencia positiva calculada. como v,111 i"" resulta cuando la corriente circula en la dirección de una caída de voltaje y en la razón de transferencia de energía a la carga.. (a). (b). Figura 2.1 Circuito RL paralelo y el correspondiente diagrama vectorial..

(22) 23. "ª". Alternativamente, la potencia negativa calculada como. 1m,. resulta cuando la corriente circula en la dirección de un voltaje superior y significa que la energía se transfiere de la carga al sistema al cual está conectada la carga. Si l\111 e. ( 111 están en fase, y puesto que están en. una carga puramente resistiva, la potencia instantánea nunca es negativa. Si la corriente y el voltaje están fuera de fase 90° , como en un elemento . de circuito puramente inductivo o puramente capacitivo, la potencia instantánea tiene una mitad. positiva y otra mitad igualmente negativa y el valor promedio es cero.. Usando identidades trigonométricas la expresión de la ecuación 2.1 se reduce a:. p=. V mur. donde. 111. "ª. 2. cos 0 (1 + COS 2úJ t) +. Vmar 1tmn. V mar. 111 . "". 2. sen 0 sen 20J I. (ec. 2.2). puede remplazarse por el producto del voltaje y la. corriente rms IV(//J 11 ,,I o IVl · 111. 0. Otra forma de interpretar la expresión para la potencia instantánea es considerar la componente de corriente en fase componente 90° fuera de fase con v. 011. •. con v. 011. y la. La figura 2.1a muestra un circuito. paralelo para el que la figura 2.1 b es el diagrama vectorial. La componente de i,,,, en fase con v,,,, es i 11 , y de la figura 2.1b, 11 11 1=11",,lcosB. Si el máximo valor de 1,111 es 1111" ' , el máximo valor de 111 corriente instantánea i,1 debe estar en fase con. ji/. =. 1,,, cose cos ú){ '-y----'. ,mn,u. es 111,,11 cose. La. v,,,, . Para v,,,,. = V111" ' cos OJ t. (ec. 2.3).

(23) 24 Análogamente la componente de i011 con un atraso respecto de 90° es ix cuyo máximo valor es f 111ax sen 0. Puesto que ix debe atrasar v011 por 90°. ix. = I mm. sen 0 sen w t. (ec. 2.4). '------r---' mcaiK. entonces. .. Va), =. Vmax J11/UX cos 0 cos 2. {J)(. V,,,ax Jmux =- - cos0 (1 + cos. 2. 2wt). (ec. 2.5). la cual es la potencia instantánea en la resistencia y es el primer término en la ec. 2.2 . La figura 2.2 muestra v0 ,, in dibujada con respecto a t. De igual forma,. Figura 2.2 Voltaje, corriente en fase con el voltaje y la potencia resultante dibujados con respecto al tiempo.. v11,, 1.x = Vmm I ""ª sen 0 sen w t cos w t =. v,/IIU. 1111ª'. ___;,;,,,;c.;...._.;;.;..=... 2. sen 0 sen 2 w t. (ec. 2.6). que es la potencia instantánea en la inductancia y es el segundo término en la ecuación 2.2. La figura 2.3 muestra v,,11 con respecto a t .. ,. ix y su producto dibujado.

(24) 25. Figura 2.3 Voltaje, corriente atrasando el voltaje en 90° , y la potencia resultante dibujados con respecto al tiempo.. Un examen de la ecuación 2.2 muestra que el primer término, el que contiene a cos0, siempre es positivo y tiene un valor promedio de. p=. I,ll(u cose 2. ,vllllU. (ec. 2.7). o cuando se substituyen los valores rms de corriente y voltaje. (ec. 2.8). P es la cantidad a la cual la palabra potencia se refiere cuando no se modifique por algún adjetivo que indique otra cosa. P, la potencia media, también se llama potencia real. La unidad fundamental para la potencia instantánea y promedio es el vatio o watt, pero es una unidad muy pequeña con respecto a las cantidades en sistemas de potencia. Así que P es medida generalmente en kilovatios o megavatios ( kilowatts o. megawatts ).. 2.2. HISTORIA DE UNA RED NEURONAL. En 1943, un neurobiologista, Warren McCulloch y un estadístico, Walter Pitts, publicaron un reporte técnico titulado "A Logical Calculus of Ideas lmminent in Nervous Activity". Este informe fue una inspiración de.

(25) 26. los cuatro nuevos campos computacionales: computadoras digitales, computación neuronal, inteligencia artificial y sistemas expertos.. En 1956, Marvin Minsky, John McCarthy, Nanthanial Rochester y Claude Shannon organizaron la primer conferencia sobre inteligencia artificial auspiciada por la Fundación Rockefeller. En esta conferencia, Rochester presentó un modelo neuronal en red usando algunos cientos de neuronas simuladas e interconexiones para explorar como tal red podía responder. a estímulos. ambientales.. Este es. el. primer software. computacional de simulación conocido sobre redes neuronales.. En 1957, Frank Rosenblatt, de Cornell University, inventó el perceptrón, el cual, en primera instancia, estuvo dirigido al reconocimiento de patrones ópticos. Una malla de 400 fotoceldas, correspondientes a neuronas fotosensitivas en la retina recibían el estímulo óptico primario. Estas fotoceldas fueron aleatoriamente conectadas a un asociador de unidades que recolectaba los impulsos eléctricos de todas ellas.. Si la entrada de las fotoceldas excedía cierto valor umbral, el asociador mandaba una señal a las unidades de respuesta para producir cierta salida. El perceptrón tuvo su mayor limitación en no poder responder a modelos no lineales.. A mitad de los 60 's, Marvin Minsky y Seymour Papert, ambos del MIT, empezaron a trabajar sobre una crítica del perceptrón. La conclusión de su trabajo, reportado en su libro "Perceptrón" publicado en 1969, decía que el perceptrón y la computación neuronal no eran temas interesantes de estudio. Esto causó una drástica reducción en los fondos para la investigación y desarrollo de la computación neuronal en ese tiempo. A pesar del libro de Papert y Minsky, un grupo de investigadores incluyendo a Stephen Grossberg de Boston University, James Anderson de Brown University y Teuvo Kohonen de Helsinky Technical University en Finlandia continuaron sus investigaciones sobre la computación neuronal..

(26) 27. En 1982 John Hopfield de Caltech, presentó un reporte sobre computación neuronal a la Academia Nacional de Ciencias en los E.U.A.. Su claridad en la presentación y entusiasmo impulsó a los investigadores a retomar su interés sobre el fascinante mundo de la computación neuronal. Existen a la fecha muchos grupos universitarios llevando a cabo estudios sobre redes neuronales.. Uno de los más grandes y recientes grupos de investigación es el grupo de procesamiento paralelo distribuido encabezado por David Rumelhart [8], James McClelland y Geoffrey Hinton en Stanford University. Este grupo está basándose en el desarrollo del modelo backpropagation (retropropagación), el cual, es el modelo más popular para la mayoría de las aplicaciones de redes neuronales.. 2.3. ¿QUÉ ES UNA RED NEURONAL ARTIFICIAL? Cualquiera puede ver que el cerebro humano es superior a una computadora digital en muchas tareas.. Un buen ejemplo es el. procesamiento de información visual: un bebé de un año de edad es mucho mejor y más rápido en el reconocimiento de objetos, caras, etc. que el más avanzado sistema de inteligencia artificial instalado sobre la más rápida supercomputadora.. El cerebro tiene muchas otras características que son deseables en sistemas artificiales:. •. Es robusto y tolerante a fallas. Células nerviosas mueren cada día sin afectar su ejecución en forma significante.. •. Es flexible. Nuestro cerebro puede fácilmente ajustarse a un nuevo ambiente aprendiendo y este aprendizaje y la forma en que procesa la información no tienen que ser programados en Pascal, C, Fortran, etc..

(27) 28. •. Puede manejar información difusa,. con. ruido,. probabilística o. inconsciente. •. Es masivamente paralelo.. •. Es pequeño, compacto y consume muy poca energía.. Sólo en tareas basadas fundamentalmente en simple aritmética , la supercomputadora es capaz de rebasar el rendimiento del cerebro .. . Esta es la motivación real para estudiar la computación neuronal. Es un paradigma computacional alternativo al usual (basado en la secuencia de instrucciones) el cual fue introducido por Van Neumann y que ha sido usado como base de casi todas las computadoras hoy en día. Es inspirado por el conocimiento de la neurociencia, aunque no trata de ser biológicamente real en detalle.. 2.3.1 INSPIRACIÓN EN LA NEUROCIENCIA.. La investigación neuronal, hoy en día, es enormemente motivada. por la. posibilidad. de. construir. redes. neuronales. artificiales. Los modelos son extremadamente simplificados cuando se ven desde el punto de vista neurofisiológico.. 2.3.2 NEURONAS.. El cerebro está compuesto de. 1011. neuronas (células. nerviosas) de muchos diferentes tipos. La figura 2.4 es un dibujo esquemático de una sola neurona. Redes de fibras, parecidas a un árbol, llamadas dentritas, están conectadas al cuerpo de la célula, donde se localiza su núcleo.. ..

(28) 29. uon ------.._ cuerpo. dela \ célula -- dentrltu. Figura 2.4. Dibujo esquemático de una neurona típica. Extendiéndose desde el cuerpo de la célula, está una sola y gran fibra llamada axon, la cual , eventualmente, se ramifica o arboriza en hebras. En las terminales de éstas se encuentran las terminales de las uniones sinápticas o sinapses hacia otras neuronas.. La transmisión de una señal desde una célula a otra en una sinapse es un proceso químico complejo, en el cual, sustancias transmisoras específicas son liberadas del lado transmisor de la unión. El efecto es incrementar o bajar el potencial eléctrico dentro del cuerpo de la célula receptora . Si este potencial alcanza o rebasa un umbral, un pulso o acción potencial de magnitud y duración fija es propagado a través del axon. Decimos entonces que la célula se ha "disparado". El pulso así, se ramifica a través de la arborización axonal hacia uniones sinápticas de otras células. Después de disparada,. la célula tiene que esperar un tiempo llamado. "refractario" antes de que pueda dispararse de nuevo.. McCulloch y Pits (1943) propusieron un modelo simple de una neurona, como una unidad binaria con umbral de disparo. Específicamente, el modelo neuronal calcula una suma ponderada de sus entradas proveniente de otras unidades y entrega a su salida un "uno" o "cero" dependiendo de si esta suma se encuentra arriba o debajo de un cierto valor de umbral..

(29) 30. Figura 2.5 Diagrama esquemático de una neurona artificial.. n¡ (t+1)=. e (¿wijn/t)-µ,).. (ec. 2.9). .i. Aquí. n¡. es 1 ó O y representa el estado de la neurona. i. como "disparada" o "no disparada". El tiempo t es tomado como discreto, considetando un paso de procesamiento en una unidad de tiempo. 0(x) es la función unitaria o de Heaviside:. 0(x). ={:. "no. El peso w,; representa la fuerza de la sinapse conectando la neurona. J a la neurona ; . Este valor puede ser positivo o negativo. correspondiendo. a. una. sinapse. excitadora. o. inhibidora. respectivamente. Puede también ser cero si no existe sinapse entre. ; y j . El valor. u1. es el valor de umbral para la unidad ; ; la suma. ponderada de las entradas debe alcanzar o exceder el valor del umbral para que la neurona se dispare.. Aunque. simple,. una. neurona. McCulloch-Pitts. es. computacionalmente un dispositivo poderoso. McCulloch y Pitts probaron que un aparato de tales neuronas es capaz , en principio, de efectuar un computo universal para un determinado conjunto de pesos previamente determinado. Esto significa que puede ejecutar.

(30) 31. cualquier cómputo que cualquier computadora digital realice, aunque no necesariamente tan rápido o conveniente.. Alrededor de 1960 un grupo de investigadores encabezados por Frank Rosenblatt, se enfocaron sobre el problema de cómo encontrar los pesos apropiados,. w;¡ ,. para tareas particulares de. cómputo. Ellos se concentraron en redes llamadas perceptrones, en las cuales las unidades son organizadas en capas con conexiones entre una capa y la siguiente.. 2.4. ELEMENTOS DE UNA RED NEURONAL ARTIFICIAL. Las partes fundamentales de un sistema neuronal artificial son:. •. Unidades de procesamiento W={ui,u 2 ,u 3 , ... ,u,,}. Son el conjunto de elementos simples e. interconectados (neuronas ) que procesan la. información y que suelen disponerse en capas o niveles estructurados jerárquicamente. El trabajo de cada unidad consiste simplemente en recibir la señal de entrada de sus vecinas y calcular una señal de salida, desarrollándose el proceso intrínsecamente en paralelo; esto es, procesándose información simultáneamente en muchas neuronas. Podemos tener dentro de una red unidades de "entrada", que reciben la información del exterior, de "salida", que proveen los resultados del sistema y eventualmente las llamadas "ocultas", que trabajan dentro de éste, sin intercambiar señales con el ambiente (entrada o salida).. •. Un estado de activación, que en cada instante t , representa el nivel de activación de cada neurona u 1 a través de un valor de activación real a, (f) . El patrón de activación global del sistema en un instante t será pues, un vector n-dimensional a(t). Los distintos modelos de red neuronal podrán caracterizarse por el rango de valores que tomen sus.

(31) 32. estados de activación; hablaremos de neuronas de activación discreta o continua, binaria, ternaria, de escala de intervalo, de activación (0,1),o (-1,1), etc.. •. Salidas de las unidades (neuronas), que en cada instante determinarán la señal que cada neurona u 1 envía a sus vecinas. La intensidad de estas salidas y por tanto el grado en el que afecte cada neurona a las adyacentes con las que esté conectada vendrá determinada por el nivel de activación de cada neurona en cada instante a través de una función de salida o de transferencia f. De esta forma la salida que la neurona u.i aportará en el instante t , o1 (t), quedará determinada por: o/t)= f(a 1 (t)) . Las funciones de transferencia varían notablemente de. unos. modelos a otros siendo las más habituales las funciones. escalón, las funciones lineales, sigmoides o gaussianas.. •. Un patrón de conexión, que establece qué neuronas se conectan con qué otras; patrón que acaba por establecer la topología de la propia red, su eventual jerarquización por capas y la intensidad y sentido de las distintas interconexiones. En este sentido es habitual considerar el patrón, representado por una matriz de pesos o ponderaciones sinápticas , W, en la que cada. w ;¡. representa la intensidad y sentido. con el que la salida de la neurona i -ésima afecta a la activación de la neurona. •. J -ésima.. La regla de propagación. En todo modelo de red neuronal es necesario también disponer de una regla que combine las salidas de cada neurona con las correspondientes ponderaciones establecidas por el patrón de conexión para especificar de esta forma cómo se evaluarán las entradas que reciba cada neurona. El efecto global sobre una neurona u./. , de todas las demás neuronas, suele considerarse aditivo y constituye la llamada entrada neta o potencial postsináptico :.

(32) 33. (ec. 2.1 O). En la figura siguiente puede verse esquemáticamente la activación, salida , entrada neta y patrón de c~~exión de un nodo o neurona u 1. ; focalizando esta estructura básica, en cada una de las unidades componentes nos encontraremos con una situación esquematizable como ~. se muestra:. nodo uj: activación, salida, entrada neta y patrón de conexión. Figura 2.6 Activación, salida , entrada neta y patrón de conexión de un nodo o neurona u 1. donde cada unidad. u¡. tiene, en cada momento t, un valor de activación. a.J (t) ; este valor determina una salida a través de una función de salida. f, de forma que la salida o¡ (1) = f(a, (!)). Por otro lado, cada arco que une dos nodos tiene asociado un peso o ponderación tt\; mediante el cual la salida o J (t) se ve ponderada antes de entrar en otra unidad uk .Y por último todas las entradas, ponderadas por sus pesos, que recibe una unidad, constituyen la entrada neta, net J (t) , que determinará la activación de la unidad a través de una función de activación F . •. La regla o función de activación será una función , F , que a partir del · estado actual de activación de una neurona y de su entrada neta,.

(33) 34. determinada por el patrón de conexión y por la regla de propagación, nos evaluará el estado de activación subsiguiente:. a;(t + 1) = F(a¡(t),net¡(t)). (ec. 2.11). teniendo en cuenta las definiciones anteriores tenemos:. a_¡(t + 1) = F(a_¡(t),. ¿ w¡;O;(t)) = F(a¡(t), ¿ w¡J(a;(t))). (ec. 2.12). Aunque ésta es la formulación general, en la mayoría de las redes neuronales la función de activación F es la función identidad , sin considerar el argumento de la activación anterior, a¡ (t), por lo que es habitual que la salida de una neurona ui acabe tomando una expresión como o¡ (t + 1) =/ (net _¡(t)), o bien , o¡ (t + 1) = f (net_¡(t)- q¡). , donde el. sesgo q1 supone el umbral de señal necesario para la activación de u, ( umbral de activación). En estas situaciones sólo es necesario considerar la función f, que suele llamarse indistintamente de activación o de transferencia.. •. Una regla de aprendizaje. La regla de aprendizaje consistirá en el procedimiento por el cual se procederá a la modificación del patrón de conexión en función de la experiencia, conduciendo, en última instancia, al establecimiento de nuevos modelos de respuesta del sistema a los estímulos externos.. •. Una representación del ambiente. El comportamiento del ambiente vendrá dado, dependiendo de la aplicación que vaya a dársele al modelo de red neuronal, por la información empírica disponible o por una función estocástica que varíe temporalmente sobre el espacio de patrones de entrada..

(34) 35. La interacción de la red con el ambiente vendrá representada por el conjunto de unidades de entrada y el conjunto de unidades de salida, cuyas entradas y salidas representarán respectivamente a _la información de entrada y a la respuesta del sistema.. 2.5. REDES FEED-FORWARD Y RECURRENTES. 2.5.1 REDES FEED-FORWARD.. Las. redes. multicapas. feed-forward. fueron. llamadas. perceptrones cuando se estudiaron por primera vez en detalle por Rosenblatt y su equipo de trabajo hace más de 35 años. [Ro sen blatt,1962] . Hay un conjunto de terminales de entrada cuya única regla es proveer patrones de entrada hacia el resto de la red. Después de esta capa pueden venir una o más líneas de unidades intermedias, seguidas por una capa final de salida donde el resultado del cálculo es mostrado. En.este tipo de redes, no existen conexiones entre una unidad y alguna otra en una capa anterior, ni entre unidades de la misma capa ni tampoco entre una unidad y otra en dos capas adelante. Cada unidad tiene conexión con neuronas, solamente, de la siguiente capa. Las unidades en capas intermedias son normalmente llamadas ocultas porque no tienen conexión directa hacia el mundo exterior ( entradas o salidas ).. (b). Figura 2.7 (a) Un simple perceptrón con una sola capa. (b) perceptrón de dos. capas..

(35) 36. Las redes feed-forward tienen por definición matrices de conexión asimétricas w;¡, es decir, todas las conexiones son unidireccionales. A continuación trataremos redes de una capa llamadas comúnmente perceptrones simples.. Existe un conjunto de N entradas y una capa de salida, pero sin capas ocultas. La figura 2.7a muestra un ejemplo , las entradas. y salidas son llamadas. ~k. .. y O; respectivamente .. Su cálculo se describe simplemente por:. (ec. 2.13). Donde. g(h). es la función de activación calculada por las. unidades.. Nótese que la salida es una función explícita de la entrada. Esto es verdad para todas las redes feed-forward; la entrada es propagada hacia la red y produce la salida más adelante. En este caso omitiremos los umbrales porque ellos pueden siempre ser tratados como conexiones a una terminal de entrada que es permanentemente colocada en -1. Específicamente se puede fijar. c;0 === -1. y escoger valores de conexiones. 1-v;o ===. 0; para obtener:. (ec. 2.14). con el umbral 0;..

(36) 37. La tarea general de asociación puede siempre ser ideada en la forma de preguntar por un patrón de salida en particular (; en respuesta a un patrón de entrada ~:, lo que significa que se desea que el patrón actual de salida igual al patrón deseado. O;. sea. s/'.. O;= s;. (deseado). Para cada i y µ . Para un perceptrón simple la salida actual está dada por la ecuación 2.13 cuando la entrada. ~k. es. fijada al patrón ~:: (ec. 2.15). Se define p como el número de pares de entrada-salida en el conjunto de entrenamiento, así que µ. Las entradas, salidas. = 1,2,3, ... ,p.. y valores deseados o metas. pueden ser booleanos (es decir. ~ 1). o continuos . Para las. salidas esto depende por supuesto de la naturaleza de la función de activación g(h).. Para perceptrones simples se tiene que si existe un conjunto de pesos. w ik. los cuales entregan un cálculo en. particular, entonces esos pesos pueden ser encontrados por una regla simple de aprendizaje. La regla de aprendizaje inicia de una primera aproximación en los valores de los pesos y efectúa mejoras sucesivas. Posteriormente se obtiene una respuesta apropiada en un número finito de pasos..

(37) 38. 2.5.2. REDES RECURRENTES.. Este tipo de redes es adicionada al nivel de la entrada por unidades. llamadas. de contexto. Estas unidades son también. ocultas en el sentido de que ellas interactúan exclusivamente con otros nodos internos de la red y no hacia el mundo exterior. Unidades de Salida 1. '. 1. I. I. I. ~----,,_...---....u:::::..:nidades Ocultas I. I I. I. Unidades .de Entrada. Figura. 2.8. Red. Unidades de Contexto. recurrente.. Las. líneas. punteadas. representan conexiones entrenables.. En el tiempo t las unidades de entrada reciben la primera entrada de alguna secuencia. Cada entrada puede ser un solo valor escalar o un vector, dependiendo de la naturaleza del problema. Tanto las unidades de entrada como las de contexto activan a las unidades ocultas y entonces estas proveen información hacia las siguientes capas para activar a las unidades de salida. Las unidades ocultas también regresan información para activar las unidades de contexto. Dependiendo de la tarea, puede o no existir una etapa de aprendizaje en este punto. En este tiempo. t. + 1 la secuencia. anterior se repite; aquí las unidades de contexto contienen valores que son exactamente iguales a los valores de las capas ocultas en el tiempo t . Estas unidades de contexto , así, le dan la característica de memoria a este tipo de redes..

(38) 39. En las redes feed-forward las cuales emplean unidades ocultas y un algoritmo de aprendizaje, las unidades intermedias desarrollan representaciones internas para los patrones de entrada de una forma que permite a la red producir la salida correcta para una entrada dada. En esta arquitectura recurrente las unidades de contexto recuerdan el estado interno previo. Así, las unidades ocultas tienen la tarea de relacionar una entrada externa y el estado interno previo con alguna salida deseada.. 2.6. ALGORITMOS DE APRENDIZAJE EMPLEADOS. 2.6.1 BACKPROPAGATION (RETROPROPAGACIÓN). El algoritmo backpropagation es central en muchos de los trabajos actuales sobre aprendizaje en redes neuronales. Este fue inventado independientemente en varias ocasiones, por Bryson y Ha [1969], Werbos [1974], Parker [1985] y Rumelhart, Hinton y Williams [1986]. El algoritmo dá un método para cambiar los pesos w pq en cualquier red del tipo feed-forward y "aprender" sobre un. conjunto de pares entrada-salida {~:, t;(}.. Para este efecto. consideremos primero una red de dos. capas, mostrada en la figura 2.9..

(39) 40. O¡. W¡¡. V¡. Figura 2.9 Red feedforward de dos capas.. Las salidas son denotadas por O;, las unidades ocultas por. V1 y las terminales de entrada por. ;*.. Existen conexiones w 1*. desde las entradas hacia las unidades ocultas, y W;1 desde estas últimas hacia las correspondientes de salida. Nótese que el índice i siempre refiere a una unidad de salida,. J a una oculta y k a una. terminal de entrada.. Las entradas están siempre sujetas a valores particulares, vamos a etiquetar a diferentes patrones por un superíndice µ, así la entrada k se representa como ~: cuando se presenta el patrón µ. También usamos N para el número de unidades de entrada y. p para el número de patrones de entrada (µ. Dado el patrón µ, la unidad oculta. = 1, 2, ... , p) .. J recibe una entrada de. red. hJJI. -. " ¿. k. y produce una salida. j:/1 l1/ jk",k. (ec. 2.16).

(40) 41. (ec. 2.17). La unidad de salida i así recibe. h( =. ¿Wii V(= ¿W;¡g(f w J. ./. 1k. ~:J. (ec. 2.18). y produce para la salida final. En este caso se han omitido los umbrales; estos pueden ser tomados como una entrada extra con un valor de -1 y conectada a todas las unidades en la red.. La medida del error o función costo. E[w]= ~ ¿(s; -O¡ ]1. (ec. 2.20). µ,. ahora se obtiene. (ec. 2.21).

(41) 42. En un sentido esto es todo sobre backpropagation, pero existe una gran importancia práctica en la forma de las reglas de actualización de resultados.. Para las conexiones desde las capas ocultas a la salida la regla de gradiente descendiente dá :. fiWij = -r¡. aª! = Ikt - 0!' ]g' (h; )vr = r¡. lj. µ. r¡ ¿'5/'. v:. (ec. 2.22). µ. donde se define. '5; = g'(h!'). k/' -O;]. (ec. 2.23). El resultado es idéntico al obtenido para un perceptrón de una sola capa, con la salida. vr. de las unidades ocultas jugando. ahora el papel de entrada del perceptrón..

(42) 43. Para las conexiones desde la entrada a las capas ocultas !). w 1k. se debe diferenciar con respecto a los. w;k .. Usando la regla. de la cadena, se obtiene. /).w .k 1. =-11 -. oE. =-11. °"'Jk. oE oV( I -avr owjk. µ. pi. = 17 ¿8; µi. W;;. g'(hf k: (ec. 2.24). con. (ec. 2.25). Nótese que la ecuación 2.24 tiene la misma forma que la 2.22, pero con una definición diferente de los 8' 1 • En general, con un arbitrario número de capas, la regla de actualización backpropagation siempre tiene la forma. L1Wpe¡. =n •¡. 'L,_8 sulidu xV('11/ruda. (ec. 2.26). p,11r011e.,-. donde salida y entrada se refieren a las dos terminaciones p y q de la conexión en cuestión, y V representa la activación apropiada entrada-fin desde una unidad oculta o una entrada real. El significado de 8 depende de la capa de la que se trate; para la última capa de conexiones este está dado por la ecuación 2.23, cuando para las otras capas está dado por una ecuación como la 2.25..

(43) 44 La ecuación 2.25 nos permite determinar oculta V; en términos de los. o' s. o para una unidad. de las unidades O; que ésta. provee. Los coeficientes son los usuales W;; 's, pero aquí ellos están propagando errores. (o' s). delante: de ahí el. hacia atrás en lugar de señales hacia. nombre de error backpropagation. o solo. backpropagation.. Aunque se han escrito reglas de actualización 2.22 y 2.24 como sumas sobre todos los patrones µ , ellos son usados en forma incremental: un patrón µ es presentado en la entrada y entonces todos los pesos son actualizados antes de que el siguiente patrón sea considerado. Esto claramente decrementa la función costo (para una 1J suficientemente pequeña) en cada paso, haciendo pasos sucesivos para adaptar el gradiente local.. Como conclusión y debido a su importancia se resumen a continuación los pasos del algoritmo backpropagation tomando un patrón µ a un tiempo (actualizaciones incrementales). Se considera una red con M capas m = l,2, ... ,M y se usa V/" para la salida de unidad i - ésima en la m - ésima capa.. V;°. será sinónimo para ~;, la. i -ésima entrada. Nótese que el superíndice m etiqueta capas, no patrones. Hacemos que. w;;i. sea la conexión desde. v¡n-. 1. hasta. V/".. Entonces el procedimiento backpropagation es: 1.. Se inicializan los pesos a valores aleatorios pequeños.. 2.. Se escoge un patrón ~: e introducirlo a la capa de entrada. (m =0):. V/ = ~t. para todas las k..

(44) 45. 3.. Propagar la señal hacia adelante a través de la red usando. V."' I. =g(h )= g ("'k.Jwlj \"' 111. 111. /. vm-i ./. J. j. para cada i y m hasta que la salidas finales. V;M. hayan sido todas calculadas.. 4.. Calcular los deltas para la capa de salida. comparando las salidas actuales. v/. 1. con las. deseadas (; del patrón µ en consideración.. 5.. Calcula los deltas para las capas precedentes propagando los errores hacia atrás ~111-I _. U¡. -g. '(hm -l)~ · k.JW}i. 111. ¡. ~"'. U¡. j. para m = M , M - l, ... , 2 hasta que un delta sea calculado para cada unidad.. 6.. Usar A. , "'. utt;¡. = r¡u¡~111. v111 - I. j. para actualizar todas las conexiones de acuerdo. a. 7.. 11111.•t·o. W,¡. =W¡anterior 1. +. ~. W ;¡ .. Regresar al paso 2 y repetir para el siguiente patrón..

(45) 46. 2.6.2 CASCADE CORRELATION (Correlación en cascada). Cascade correlation es una arquitectura y algoritmo de aprendizaje supervisado relativamente nuevo (1990) para redes neuronales artificiales. En lugar de solo ajustar los pesos en una red de topología fija, cascade correlation inicia con una red mínima, automáticamente entrena y suma nuevas unidades ocultas una por una, creando una estructura multicapas. Una vez que una unidad oculta ha sido dada de alta a la red, su pes'O del lado de la entrada se fija o "congela".. Cascade correlation combina dos ideas: la primera es la arquitectura. de. cascada,. en. la cual. unidades. ocultas. son. introducidas a la red una a la vez y no cambian después de haber entrado. La segunda es el algoritmo de aprendizaje, el cual crea e instala la nuevas unidades ocultas. Para cada nueva unidad oculta, se intenta maximizar la magnitud de la correlación entre la salida de la nueva unidad y la señal del error residual que se está intentando eliminar.. La arquitectura de cascada se ilustra en la figura 2.1 O. Esta inicia con algunas entradas y una o más unidades de salida, pero ninguna unidad oculta. El número de entradas y salidas es dictada por el problema y por la representación de entrada-salida que se ha determinado para el experimento. Cada entrada está conectada a cada unidad de salida por una conexión con un peso ajustable: Existe también una entrada , permanentemente con una señal de. +1..

(46) 47. Salidas. Estado Inicial Ninguna unidad oculta Entradas. o---------------~--------. +1. ------------------;~-"'*""--Salidas. Unidad oculta 1 adicionada. Ji--------------------Entradas. 0-------e----------+--"""*-___,.. +1. ------ft-----------*"'""-""*"-Salidas Unidad oculta 2 adicionada. _JI--------------'----•. J1-----------------+1. ------e-------f!i-------*'"""-""*"---. Figura 2.10 Arquitectura de cascada, estado inicial y después de adicionar 2 capas. ocultas. Las conexiones cuadradas están "congeladas", las "X" son entrenadas repetidamente..

(47) 48. Las unidades de salida pueden solo producir una suma lineal de sus entradas ponderadas o pueden usar alguna función de activación no lineal.. Se adicionan unidades ocultas a la red una a una. Cada unidad oculta nueva recibe una conexión desde cada una de las entradas originales de la red y también desde cada unidad oculta ya existente. Los pesos de entrada de las unidades ocultas son fijados en el momento en que la unidad es puesta en la red, únicamente las conexiones de salida son entrenadas repetidamente. Cada nueva unidad por lo tanto suma una nueva capa oculta de una unidad en la red, a menos que algunos de sus pesos de entrada sean cero.. El algoritmo de aprendizaje empieza sin unidades ocultas. Las conexiones directas entre la entrada y la salida son entrenadas tanto como sea posible sobre el conjunto completo de datos de entrenamiento. En virtud. de que no existe la necesidad de una. propagación del error hacia atrás a través de las unidades ocultas se puede usar cualquier algoritmo de aprendizaje usado para redes de una sola capa, tales como la regla "delta", "quickpropagation", etc.. Cuando no se presenta una reducción significante del error después de un cierto número de ciclos de entrenamiento (controlados por un parámetro de "paciencia" fijado por el usuario), se "corre" la red una última vez sobre el conjunto completo de parámetros de entrenamiento para medir el error. Si se satisfacen los requerimientos de ejecución de la red, el algoritmo para; si no, entonces es porque existe un error residual que queremos aún disminuir. Para lograr esto, se deberá aumentar otra unidad oculta a la red, usando el mecanismo descrito posteriormente. La nueva unidad es introducida a la red, sus pesos en la entrada se fijan y.

(48) 49. todos los pesos de salida son una vez más entrenados usando un algoritmo como "quickpropagation". Este ciclo se repite hasta que el error sea razonablemente pequeño.. 2.6.2.1. Creación de una unidad oculta. Se inicia con una "unidad candidata" que recibe conexiones desde todas las entradas externas de la red y también desde todas las unidades ocultas ya existentes. La salida de esta unidad candidata no está aún conectada a la red activa. Se corren un número de pasadas. sobre. los. ejemplos. del. conjunto. de. entrenamiento, ajustando los pesos de entrada de la unidad candidata en cada paso. La meta de estos ajustes es maximizar S , la suma sobre todas las unidades de salida o de la magnitud de la correlación entre V , el valor de la unidad candidata, y E,,, el error residual de salida observado en la unidad o . Se define a S como: (ec. 2.27) o. J'. donde o es la salida de la red en el cual el error es medido y p es el patrón de entrenamiento. Las cantidades. V. y. E 0. son los valores promedio de V y. E,, de todos los patrones.. Para maximizar S , se debe calcular. ª¼a ., Wl. la. derivada parcial de S con respecto a cada uno de los pesos entrantes de las unidades candidatas, w;. Se.

(49) 50. puede entonces expandir y diferenciar la fórmula para S y obtener:. ª¼ " ( -) .,. (ec. 2.28). 8wi= L/:Y" EP," -E" f P l;,p P,". donde a,, es el signo de la correlación entre el valor de las unidades candidatas y la salida o, f'P es la derivada para el patrón p de la función de activación de la unidad candidata con respecto a la suma de sus entradas, y Ji ,p es la entrada que la unidad candidata recibe desde la unidad i por el patrón p .. Después. de. calcular. ª¼. 8wi. para. cada. conexión de entrada, se puede ejecutar un gradiente ascendente para maximizar S . Una vez más se intenta entrenar solo a una sola capa de pesos. Nuevamente se usa la regla de actualización para una convergencia más rápida. Cuando S. termina de. mejorar, se instala la nueva candidata como una unidad en la red activa, "congelando" sus pesos en la entrada.. Debido al valor absoluto en la fórmula para S , una unidad candidata solo cuida la magnitud de su correlación con el error en una salida dada y se despreocupa del signo de esta correlación. Como una regla, si una unidad oculta correlaciona positivamente con el error en una unidad dada, esta desarrollará una conexión con peso negativo a esa unidad, intentando cancelar algo del error; si la correlación es negativa, el.

(50) 51. peso a la salida será positiva. Ya que los pesos de una unidad a diferentes salidas pueden ser de signos mezclados, una unidad puede algunas veces servir de dos formas: desarrollando una correlación positiva con el error en una salida y otra correlación negativa con el error en otra.. En lugar de una sola unidad candidata, es. .. posible usar un conjunto o grupo de candidatas, cada una con un peso inicial escogido aleatoriamente. Todas reciben las mismas señales de entrada y "observan" el mismo error residual para cada patrón de entrenamiento. Debido a que ellas no interactúan con alguna otra ni afectan la red activa durante el entrenamiento, todas. estas. unidades. candidatas. pueden ser entrenadas en paralelo; cuando se decide que no se ha progresado más, se instala la candidata cuyo valor de correlación fue el mejor.. El uso de este conjunto de candidatas es benéfico en dos formas: reduce enormemente la probabilidad de que una unidad. sin. usar sea. permanentemente instalada porque una candidata individual esté inactiva durante el entrenamiento, y (sobre. una. máquina. paralela). se. acelera. el. entrenamiento porque muchas partes del espacio de pesos pueden ser explorados simultáneamente..

(51) 52. 2.6.3 RECURRENT CASCADE CORRELATION (Correlación en cascada recurrente). Cascade. correlation. (correlación. en. cascada),. como. backpropagation (retropropagación) y otras arquitecturas feedforward, no tienen memoria de corto plazo en la red. Las salidas en un tiempo dado son función solamente de las entradas actuales y los pesos en la red. Por supuesto, muchas tareas del mundo real requieren el reconocimiento de una secuencia de entradas y, en algunos casos, la correspondiente producción de una secuencia de salidas.. Un número de arquitecturas recurrentes han sido propuestas en respuesta a esta necesidad. Quizá la más ampliamente usada en el presente, es el modelo de Elman[10], la cual asume que la red opera en pasos de tiempo discretos. Las salidas de las unidades ocultas de la red en el tiempo t son regresados hacia atrás para usarse como entradas adicionales en el tiempo t + 1.. Recurrent cascade correlation es una arquitectura que suma la operación recurrente de Elman a la arquitectura cascade correlation. De cualquier forma, algunos cambios fueron necesarios para hacer que los dos modelos trabajaran juntos.. En la. arquitectura original de Elman hay una conectividad total entre las salidas previas de las unidades ocultas y la propia capa oculta. En cascade correlation, nuevas unidades ocultas son introducidas una a una y son fijadas una vez adicionadas a la red. Aunque se puede violar este concepto al insertar las salidas de unidades ocultas nuevas a unidades ocultas existentes como nuevas entradas. Por otro lado, la red debe ser capaz para formar circuitos recurrentes para retener el estado para un tiempo indefinido..

(52) 53. La solución que se adoptó en recurrent cascade correlation fue adicionarle a cada unidad candidata una entrada recurrente ponderada que regresa de la propia salida de la unidad en el paso de tiempo anterior. El enlace recurrente es entrenado con los pesos de las entradas de las demás unidades para maximizar la correlación de la unidad candidata con el error residual.. Si el. enlace recurrente adopta un valor fuertemente positivo, la unidad funcionará como un flip-flop, manteniendo su estado previo a menos que las otras entradas lo obliguen a cambiar; si el enlace adopta un valor negativo, la salida de la unidad tenderá a oscilar entre valores positivos y negativos en cada paso de tiempo a menos que las otras entradas lo mantengan en su lugar; si el peso de este enlace recurrente es cercano a cero, entonces la unidad actuará como una compuerta de alguna clase.. Cuando una unidad candidata es introducida a la red activa como una nueva unidad oculta, el peso de su enlace recurrente se fija o "congela" junto con todos los demás pesos. Cada nueva unidad oculta es en efecto una sola variable de estado en una máquina de estados finitos que es construida específicamente para una tarea en particular.. La salida, V (t), de cada unidad recurrente es calculada como sigue:. v(t )= a ( ¿1,(,)w, + V(t -1) w, J. (ec. 2.29). donde a es alguna función no lineal aplicada a la suma ponderada de entradas J más la conexión recurrente . Durante la fase de entrenamiento de las candidatas, se ajustan los pesos w; y w., para.