Desarrollo de un pronosticador de tráfico para fuentes MPEG

Texto completo

(1)IEL2-1-05-7. DESARROLLO DE UN PRONOSTICADOR DE TRÁFICO PARA FUENTES M PEG. RAFAEL ANDRES CAÑÓ N SANCHEZ. UNIV ERSIDAD DE LOS ANDES FACULTAD DE ING ENIERIA DEPARTAM ENTO DE ING ENIERIA ELECTRICA Y ELECTRONICA BOGOTA 2005.

(2) IEL2-1-05-07. DESARROLLO DE UN PRONOSTICADOR DE TRÁFICO PARA FUENTES M PEG. RAFAEL ANDRES CAÑÓ N SANCHEZ. Proyecto de Gr ado para opt ar el tit ulo de Ingeniero Electrónico. Asesor Ph.D. Néstor Peña Coasesor Marco Aurelio Alzate. UNIV ERSIDAD DE LOS ANDES FACULTAD DE ING ENIERIA DEPARTAM ENTO DE ING ENIERIA ELECTRICA Y ELECTRONICA BOGOTA 2005. 2.

(3) IEL2-1-05-07. Introducción En la actualidad el tráfic o de video es una fracc ión impor tante del total de tráfic o en la Inter net. Esto se debe. a la crec iente popular idad del uso de. aplicaciones multimedia, tales como pr ogramas del intercambio de v ideo y video c onferencias etc. Los pr oblemas más importantes a los que se deben hacer frente en la transmisión de video, s on mantener un pequeño mar gen el retraso de paquetes y la pérdida de los mis mos; con el fin de as egur ar una buena calidad de s erv icio Q oS. Lo dicho anterior mente hace de la tr ans mis ión de tr áfico de video un problema interes ante por resolver. Ex isten muc hos algoritmos de codific ación y decodif icac ión de v id eo, que se difer encian en el formato de r eproducción y en la calid ad. Sin estos algoritmos, la tr ans mis ión de video no seria pos ible, dado s u tamaño, en partic ular el tamaño de las imágenes. Per o aun us ando los algoritmos de codificac ión, los anchos de banda r equer idos siguen siendo grandes , del or den de miles de Kb/s o Mb/s. Entre los algor itmos más usados s e enc uentra el es tándar MPEG, cuyas s iglas en inglés signific an Motion Pictur e Expert. Group. La pr incipal. razón de s u us o, es su capac idad de soportar una gr an variedad de aplicaciones. Este tr abajo des arrolla un pr onos ticador de tr az as de tr áfic o de v ideo MPEG- 4, utiliz ando una de las técnic as de machi ne learning mas us adas, Las r edes neur onales . Las r edes neur onales han sido utiliz adas c on éx ito en este tip o de problemas dado que es un pr onos ticador universal de funci ones,. como fue. demostr ado por Hornik en 1989. En los últimos años se han implementado difer entes métodos para la predicc ión de tráfico de video. Varios autores 123 de proponen implementar. pr onostic ador es. bas ados. en redes. neuronales,. 1 ” A. Doulamis “An adaptabl e N eural -Netwo rk Model for recursive Nonlinear Traffic Prediction and Modeling o f MPEG Video Sources”. IEEE trans actions on Neural Networks, Vol 14, No1, Janu ary 2003 . 2 Aninda Bhattachary a, Alexander G. Parlo , “Prediction o f MPEG-Coded Video Sou rce Traffic Using Recurrent N eural Netwo rks”, IEE E TRAN SACTIO NS ON SIGNAL PRO CE SSING, VOL. 51, NO. 8, AUGUST 2003 . 3 S. J. Yoo , “Effi cient traffi c prediction sch eme for real-time VBR MPEG video transmission ov er highspeed n etworks,” IEEE Trans. Broadcasting, vol. 48, pp. 10–18, Mar. 2002 .. 3.

(4) IEL2-1-05-07 aprov echando su c apac id ad de gener aliz ar a partir de datos medidos prev iamente y la implementación de modelos no lineales. Entre tales estudios se encuentr an el uso de r edes recurrentes , r edes neur onales feed-forw ard adaptativas . Los tr es artículos difieren en la arquitectura de la red neuronal propues ta y los alg oritmos de entr enamiento. En [2] s e propone una red neur onal r ecurrente, esto es que la neur ona s e r etroalimenta c on su salida, entrenada usando el algor itmo pr opues to en 4 , aplic ada a tr azas de video suav es. Los autor es en [3] implementan una r ed neural feed-forward entr enada utiliz ando el algor itmo de mínimos cuadrados, el tipo de tr áfico de v ideo es multiplex ado y los pes os de la r ed per manec en c onstantes lo que hac e que RN desmejor e su desempeño entre los c ambios de escena. La arquitectura propues ta en [1], es una r ed feed-forward entrenada usando un c onjunto inicial de datos y s e adapta a cambios br uscos mediante el al goritmo de gradiente r educi do. Las traz as de v ideo s on ser ies de tiempo que pres entan la pr opiedad estadística de dependencia de largo plaz o, además de ex hibir una alta tas a de bits var iables VBR. La utilidad del siguiente tr abajo , es que permite a la fuente hacer una estimación de la cantidad de r ecursos del c anal que debe r eservar para la tr ans mis ión de video, dada la prior idad que tenga la aplicac ión multimedia, o si debe contr olar su tasa trans misión de v ideo para no congestionar el canal. Por c onsiguiente, el pr onostic ador puede s er útil par a en la implementación de algoritmos de congestión etc. El pr opósito del siguiente trabajo tiene como dos metas pronos ticar, y carac ter izar las tr azas de video. En nuestro c ontex to pr onosticar se puede definir como pr edecir de la for ma mas apr oximada pos ible la ev oluc ión del sistema en el c orto plazo. Por ultimo queremos c aracter iz ar el tr áfic o de video; esta tar ea c onsis te en. exponer las propiedades estadístic as del tr áfico de. video. Entre las propiedades estadís ticas encontramos la pr opiedad de auto. 4 A. G. Parlos, O . T. Rais , and A . F. Atiya, “Multi-step-ahead prediction using dyn ami c recurrent neu ral networks,” Neural Networks , vol. 13, pp. 765–786, Sept. 2000.. 4.

(5) IEL2-1-05-07 similitud 5 . Estos proc es os for man parte de un gr upo de proc es os que se conoc en como pr oceso de Dependencia de Rango Lar go (LRD). Las trazas de video c umplen con. esta. propiedad c omo. fue demostr ado. 6. .. Este. comportamiento no c ambia aún usando difer entes codif icadores al us ado en estudio de este tr abajo ( MPEG- 4). El trabajo esta or ganizado de la s iguiente forma: En la s ección I s e da una brev e introducción al es tándar de codificac ión MPEG y la for ma c omo esta estr ucturada una s ecuenc ia de imágenes en el estándar MPEG. En la secc ión II damos una introducc ión a las bas es de las r edes neur onales , tal como son la arquitectura y los algoritmos de aprendiz aje. En la secc ión III, explicamos el modelo que es implementado por el pr onostic ador, s e r ealiza descr ipción de la red neuronal feed-for war d utilizada y la maquina de estados del algor itmo. En la sección IV mostramos los r es ultados obtenidos y finalmente mostramos las conc lusiones del tr abajo que se r ealizo. .. 5. “ Generación de Fuent es Sintéticas d e tráfico de video VBR MPEG”,J. Ramirez. “ Long-Range Dep endence in Variable-Bit-Rate vides Traffic”, J. Beran , IEEE t ransactions on co mmunications, Vol 43, No 2/3/4 Feb ruary/March/Ap ril 1995 6. 5.

(6) IEL2-1-05-07 Tabla de Contenidos. INTRODUCCIÓN ............................................................................................................3 TABLA DE CON TENIDOS ...........................................................................................6 0.1 DESCRIPCIÓN DE PROBLEMA ............................................................................7 0.2 OBJETIVOS .........................................................................................................8 I. Estándar de video M PEG................................................................................9 II. Redes Neuronales f eed-for ward ......................................................................14 2.1 Arquitectura de la s r edes neuronales.................................................15 2.2 Algoritmo de Apr endizaje de Backpropagation .............................18 2.3 Algoritmo de apr endizaje Levenverg M arquardt............................21 2.4 Problema de ajuste de La Arquitectura de la Red Neuronal y Validación Cruzada ................................................................................24 III. PRONO STICADOR DE TRAZAS DE VIDEO M PEG .......................................25 3.1 DESCRIPCIÓN DE LA SOLUCIÓN [1] .................................................................27 3.2 PROCESO DE LINEALIZACIÓN ..........................................................................30 3.3 M étodo de G radiente Reducido...............................................................35 3.4 Algoritmo de adaptación y Funcionamiento de Pronosticador. ....40 IV.. RESULTADO S..................................................................................................42 4.1 ESCOGENCIA DEL M ODELO...........................................................................43 4.2 EFICIENCIA COMPUTACIONAL ........................................................................44 5.3 DESEMPEÑO....................................................................................................45. V. CO NCLUSIO NES ....................................................................................................52 REFERENCIAS.............................................................................................................53 ANEXO I .........................................................................................................................55 ANEXO 2........................................................................................................................56 ANEXO 3........................................................................................................................57. 6.

(7) IEL2-1-05-07 0.1 Descripción de Problema Las traz as de v id eo siguen un pr oces o no estacionari o complej o y pos een la propiedad de Dependencia de lar go plaz o,. lo cual facilita la pronosticac ión. pues la func ión de auto corr elación entr e los v ariables decae lentamente. La ventaja que tenemos sobr e otros pr oblemas de pronosticac ión es que los datos que usamos no poseen r uido, debido a que la fuente mis ma que los genera también los predic e, lo c ual no reduce la c omplejidad del modelo , que s e ajusta a los datos. La tarea de pr onos tic ar el s iguiente dato en una serie de tiempo ayudados s olo del c onocimiento de p datos anter iores; r equiere de la bús queda de reglas que me c aracter icen la manera como va ev oluc ionando el sistema y su estado actual. El principal problema al que nos enfrentamos es la falta de una ecuac ió n que describa completamente el comportamiento del s istema a partir de las mediciones pas adas. Las téc nic as de Machine Lear ning ofrecen var ias técnic as, que han s ido de gr an utilidad y que son capac es de emular el comportamiento de una ser ie de tiempo, haciendo posible hacer una buena estimac ión del siguiente dato x( n), conociendo {x(n- 1),x(n- 2),…x( n- p)}. Se ha demostr ado que la utilización de un modelo no lineal auto r egresi vo s e ajusta a proc esos no estacionarios, en par ticular las tr azas de v ideo. En este punto es donde las Redes neuronales feed-for war d con retraso natural en sus entradas, como s e mues tra en la figur a de abajo, son de utilidad para el des arr ollo del pronosticador, hac iendo us o de s u capacidad para implementar modelos no lineales autos regr esiv os 7. El s iguiente el problema que debemos soluc ionar es encontr ar la ar quitec tur a de la r ed neur onal. mas apr opiada para nuestro. problema. El desempeño de una r ed neur onal aplic ada a problemas práctic os, en es pecial como el de nosotr os, depende de la elecc ión de la función de activación, la ar quitec tur a de la red y el algor itmo de apr endiz aje. El algoritmo de entr enamiento deben ser lo suficientemente rápido c omo par a alc anzar a adaptar la r ed en c as o de que el desempeño des mejor e cons ider ablemente en la estimac ión de los nuev os datos. Por ultimo debemos decidir s obre la. 7. “ Recurrent N eural Networks and Robust Ti me series Prediction”, J.Connor. 7.

(8) IEL2-1-05-07 cantidad inicial de datos que debemos. medir antes de encender el. pronosticador. El modelo de pronosticador tomado fue el pr opuesto en [1]. Este pr onos tic ador fue el que mejor desempeño obtuv o sobr e los demás pr opuestos en la liter atura. En el s iguiente tr abajo se tomaron varias fuentes de v ideo par a medir el desempeño de la r ed neuronal y del algor itmo de adaptación. Entre las cuales están pelíc ulas , programas de telev isión. Las tr azas fuer on obtenidas en http://www -tkn.ee.tu-berlin.de/research/trace/tr ace.html.. 0.2 O bjetivos O bjetivo General: Implementar una red neuronal que tenga la c apacidad de pr edec ir la c antidad de tr áfico en un futuro inmediato, mediante el uso de datos medidos en tiempos anter iores. O bjetivos Es pecífic os: 1. Investig ar sobr e el uso de las redes neur onales y s u des empeño c omo pronosticador del c ompor tamiento de un s istema. 2. Simular el des empeño de la red neur onal en Matlab. 3. Investig ar sobr e el estado del arte en redes neuronales y deter minar el estado del arte en téc nicas de pr edicc ión en el anális is estadístico.. 8.

(9) IEL2-1-05-07 I. Estándar de video M PEG . En es ta sección daremos una intr oducción de los pr inc ipios de c odificac ió n de video MPEG. Y a que el tema es complejo y se daría El estándar MPEG son algoritmos cr eados par a c omprimir video y han s ido usados c omo estándares desde 1993. Este estándar es capas de compr imir tanto imágenes c omo s onido, en nuestr o c aso solo nos ocuparemos de las imágenes. El pr imero de los estándar es terminado fue MPEG- 1, se des arrollo con el propós ito de reproduc ir imágenes con c alidad de video gr abadora utiliz ando una tas a de transmisión de 1.2 Mb/s. Es te puede ser utiliz ado trasmitir video a distancias c ortas, s e utiliza más que todo para aplicaciones de CD. La s iguiente evolución del estándar fue MPEG-2, el cual fue dis eñado para trasmitir a 4-6Mb/s , que es la c alidad de transmisión de la señal de televis ión; es utiliz ado para la trans misión de telev isión digital y DV D. El es tándar de MPEG- 4 es un es tándar cr eado par a la distr ibución y repr oducción de los medios digitales en Internet. Las tr azas de trafic o que usar emos en este tr abajo son c odificadas utiliz ando este estándar. Este estándar fue creado c on la intención de que s e utiliz ar a como el únic o es tándar para la trans misión de video, captur a, gener ación, repr oducción y arc hivado. El estándar MPEG-4 para transmisión de v ideo de alta calidad sobr e redes IP, Inter net y los nuevos dis pos itiv os desarr ollados par a s u c aptura y generac ión. Para aumentar el fac tor de c ompr esión el estándar MPEG utiliza dos métodos predicción bilater al y compens ación de movimiento. El primer o cons iste en el almac enamiento de imágenes pasadas y futuras para la pr edicc ión del cuadro pres ente. El segundo crea una imagen de pr edicc ión a par tir de la imagen actual y la imagen anterior que se tiene almacenada en la me mor ia por medio de es timac ión de movimiento entre las dos imágenes. El es tándar MPEG es util iz ado c omo guía par a el dis eño de codificadores y decodif ic adores tales como Real v ideo o Window s Media. Cada escena esta compuesta por Video Objetos ( VO) que son c odific ados individualmente con el objeto de mejorar la efic ienc ia de la codific ac ión. Cada VO esta c ompuesto por 9.

(10) IEL2-1-05-07 capas. Con cada capa, el codificador pr oc esa la for ma, el movimiento y la textur a. Entr e las capas enc ontr amos las Imágenes o marcos (fr ames) , MPEG se definen c omo i ntr a-coded I, inter-c oded P y bidirec tional coded B. MPEG defer encia estas c lases por la manera c omo son decodificadas: •. La imagen I esta codif ic ada de tal manera que no r equier e de otras imágenes para su descodif icac ión, es por esto que ellas s iempr e van al comienzo de una esc ena. Utiliz an solo infor mac ión que no es redundante c on cuadr os anteriores. Proporc iona una c ompres ión moderada de la imagen.. •. La imagen P r equier e de imágenes anter iores c omo I o P par a su decodif ic ac ión. Utilizan la técnica de pr edicción de c ompensac ión de movimiento. Su codific ación pr oporc iona un may or grado de c ompres ión que los marcos I.. •. La imagen B esta c odificada c on respecto a imágenes I o P que le prec eden o es tán después de ella. Par a su codif icac ión utilizan el método de pr edicción bidireccional y su da el may or gr ado de compres ión. Estos c uadr os no pr opagan err or es y a que no se utilizan como refer encia para ningún otr o c uadr o.. La forma c omo actúan las imágenes entre ellas s e pueden entender mejor mirando la figur a 1 8. Las diferencias de tamaño entr e las imágenes I, P y B son la caus a de que el tr áfico de v ideo s ea VBR, el c uadr o I s iempre es el más grande.. 8. PATRICK SE ELING, MARTIN REISSLEIN , AND BESHAN KULAPALA, “NETW ORK PERFO RMAN CE E VALUA TION U SING FRAME SIZE AND QUALITY TRACES OF SINGLE LAYER AND TWO-LA YER VIDEO: A TUTORIAL”. IEEE Co mmunications Surveys & Tutorials • Third Quarter 2004.. 10.

(11) IEL2-1-05-07. Fig 1 Cada Marc o I, P o B esta c onfor mando por franjas, la utilidad de las franjas es que per miten que el s istema sea mas r obusto frente a los errores. Cada franja esta con confor mado por una fila macro bloques que es la unidad básica de compensac ión de movimiento. Así mis mo cada macro bloque es ta c onformado por s eis bloques; cuatro de luminanc ia y dos de cr ominancia. Estos contienen el valor de píxeles del marco. Los marcos están organiz ados en GoP ( group of pictures), GoP es una secuencia de imágenes I, P y B, un GoP empieza donde en una imagen I y ter mina en la siguie nte imagen I.. Un ejemplo de un GoP es el s iguiente. ‘IBBPBB PBBPBBP.’ . En la pr actic a se usan dos par ámetros para describir a un GoP, N y M, donde N es la distanc ia entre dos imágenes I seguidas y M es la dis tancia entre dos imágenes P, en nuestro cas o N=12 y M=3. La for ma como llegan las cadenas de imágenes al destino es diferente a la estructura de la cadena cuando s on reproducidas, es as í c omo la cadena que llega al destino es IPBB PBBPBB, per o el ordenamiento usado para reproduc ir el v ideo es como la mostr ada anterior mente. Es to se debe a que las imágenes B requieren de las imágenes que le prec eden y las s iguientes I o P, para su r epr oducc ión; por esta raz ón es de gr an importanc ia en la tr ans mis ió n de video en tiempo real contar los paquetes nec esarios, para que por ejemplo una tele c onferencia tenga sentido c uando se r epr oduzc a en el des tino.. 11.

(12) IEL2-1-05-07 Finalmente una secuenc ia de GoP puede s e una película o un pr ogr ama de telev isión etc. Para entender mejor como es la jerar quía de las c apas definidas por el estándar MPEG demos un vistazo la siguiente figura 9. Estr uctura del Es tándar MPEG. Fig.2 www.ii.uam.es/~siguenza/ Mpeg1.ppt Las tr es imágenes poseen dif er entes propiedades estadístic as, por lo que el modelamiento del tráfico par a cada una es diferente. Es por es ta raz ón que vamos a requerir de tr es r edes neur onales par a predec ir la tas a de tr áfic o para cada una de las imágenes. Los marcos I son utilizados para codificar cambios de escena, es dec ir marcos que s on muy difer entes a s us anteces ores. Los marcos que están entre esc enas y son s imilares a sus anter iores se c odifican como B y P. La siguiente gr afica muestra la c omplejidad de una tr az a de v ideo de la pelíc ula Star Wars.. 9. www. ii.uam.es/ ~siguenza/Mpeg1. ppt. 12.

(13) IEL2-1-05-07 Star Wars 10000 9000 8000 7000 s o rc a M / s e ty B. 6000 5000 4000 3000 2000 1000 0 0. 1. 2. 3. 4 5 Tiempo [s ]. 6. 7. 8. 9 7. x 10. Fig. 3. 13.

(14) IEL2-1-05-07 II. Redes Neuronales f eed-for ward Las redes neuronales artific iales fueron inspiradas en el func ionamiento de las redes neuronales biológic as. La forma de utilizac ión de estas entidades de proc esamiento tan s imple c omo las neuronas, pueden logr ar realizar tar eas complicadas al unir las, dando. una noción que pos een cierto grado. de. inteligencia. La pr incipal ventaja de las r edes neuronales es que estás son capac es de aprender y de gener aliz ar, por medio de la utilizac ión de algoritmos de aprendizaje. Generalizar se define como la c apacidad de la r ed de dar una salida racional, ante la pr esencia de una entrada con ruido.. Ventajas de las Redes Neuronales a. La princ ipal v entaja de las r edes neur onales es que pueden ser entrenadas par a ajustar cualquier func ió n, ajustando los v alor es de los pesos de conex ión entre los elementos ; utiliz ando algoritmos de aprendiz aje. Es así, c omo los pes os de una r ed neur onal son actualizados hasta que la salida de la red, lo mas cercana a la función. b. Los elementos de la r ed operan en paralelo, por consiguiente per mite la veloc idad de c alc ulo aumente, en comparación a un pr oceso que se realiza de forma s ecuenc ial. c. Las r edes neur onales artific iales tienen memor ia, esta es los pesos de las c onexiones . Las r edes neur onales pueden s er entrenadas offline y después ser tr ansfer ida a un proc eso donde un apr endiz aje adaptativo se lleve a c abo. Para el proble ma en c uestión esta es la pr inc ipal r azón por la que las redes neuronales s on de utilidad. La red adaptará sus pesos para mejorar el desempeño, dur ante la transmisión de v ideo. La pr inc ipal desventaja de las redes neuronales es que ellas operan c omo cajas negr as. La for ma como las redes neur onales operan es totalmente desc onocida. No es posible sac ar un modelo como por ejemplo Autor egr essive Moving Average ( ARMA) , a par tir de una red neuronal. Además de que los tiempos de entrenamiento pueden ser largos, dependiendo del algor itmo de entrenamiento que se esc oja.. 14.

(15) IEL2-1-05-07 El proc eso de apr endizaje se puede div idir en tr es c ategor ías : A prendiz aje supervisado, A prendizaje no supervisado y A prendiz aje por Refuerzo. En Aprendizaje super visado, el conjunto de entradas y las s alidas deseadas son pres entados al algoritmo de aprendiz aje. El objetiv o del algor itmo de aprendiz aje es que debe aprender a asociar c ada entrada a la salida que le corresponde una vez el entrenamiento ha ter minado. La utilidad de es tos algoritmos es que per miten a la red, que cuando se le pr es ente una entr ada similar,. más no idéntic a, a alguna de las entr adas utiliz adas. en el. entrenamiento; se obtiene una salida igual o s imilar. Entr e los algoritmos de aprendiz aje superv isado encontr amos Back-pr opagation y s us modific aciones. En Apr endizaj e no super vis ado, no s e conoce la s alida del conjunto de datos entrada. El algoritmo utiliz ado debe ser c apaz de clas if icar los datos en conjuntos. La forma como lo hacen es evaluando r egularidades, c orr elaciones, o categor ías ; por ello s e c onoce a estas r edes como redes que son capaces de auto organiz arse. En esta categoría encontramos Clusteri ng, por ejemplo. El ultimo método, Apr endizaj e por Refuerzo, requiere de un critico que le de una valorac ión a la red de c omo ha actuado. Esta valoración s e hace de acuer do al desempeño de la r ed según la res pues ta del sis tema. Como por ejemplo, cuando s e us an las redes neuronales en tar eas de contr ol10. El método utiliz ado de aprendiz aje para nues tro pr onos tic ador es el primer o; y el algoritmo de entrenamiento que se escogió fue Levenverg-M ar quar dt, que es una modif ic ación del algoritmo de Backpropagation. Esto s erá ex plic ado mas adelante. Antes debemos v er c omo es la es truc tur a de una red neur onal.. 2.1 Arquitectura de las r edes neuronales Hay tres tipos de ar quitectur a de Redes Neur onales: Redes feed- for ward de una sola capa, r edes feed-for war d de múltiples c apas y r edes neur onales recurr entes. La ultima clase, son redes neuronales que tienen por lo menos una retroalimentac ión de la s alida de una neur ona a alguna de las capas anterior es. En nuestro problema usamos la segunda c las e.. 10. “ Learning to control an inverted pendulum using neural n etworks ”, C.W. Anderson, Control Systems Magazine, IEEE , Ap ril 1989 Volu me: 9 , Issue: 3 ,On p age(s ): 31 - 37. 15.

(16) IEL2-1-05-07 La unid ad básica de las redes neuronales es perc eptr ón, además que es el clase mas común de la redes de una s ola capa. Los detalles de perc eptron se mues tran a contin uación.. x1 x2. w1 w2. xn. Σ. F (. ). wn. Fig. 1 La manera como el perceptr on proces a las entr adas es la s iguiente. Las entradas s on individualmente ponder as por el pes o de las conexiones y después son s umadas. Después el perc eptron sac a la s ali da de la s uma en función de f, función de acti vaci ón. La función f es necesaria pues introduce la no lin ealidad al s istema. Es ta hac e que las r edes de múltiples capas modelen funciones no lineales. Entr e la funciones de activación mas usadas enc ontramos tan-sigmoideo, Logsigmoideo y lineal, de ac uerdo a s u escogencia se afecta el des empeño de la red.. Fig. 2 De ac uerdo a lo anter ior la s alida de perceptr ón s e puede expr es ar c omo: y(k ) = f (w T (k ) * X (k )) Ec 2.1 Con:. w( k ) = [w1 , w2 ,....., wn , wn +1 ]T X ( k ) = [x1 , x2 ,....., xn ,1]T. 16.

(17) IEL2-1-05-07 Ahor a s i tomamos varios perceptr ones y los organiz amos c omo se muestr a en la s iguiente figur a ( Fig 2). Obtenemos una red neur onal feedforward, la partic ular idad de estas r edes es que las señales van desde la entrada a la salida, no hay r etr oalimentac ión. La figura muestr a una r ed, que esta compuesta por 3 c apas, dos capas escondidas y una neurona en la c apa de salida. Encontr ar una expr esión para la salida de la r ed es fác il, s implemente es utiliz ar la ecuac iones bás icas del percerptron dada anterior mente. Mas adelante daremos un ejemplo, utilizando nues tro la r ed par a nuestro pronosticador.. Fig. 2. 11. De ac uerdo al númer o de neuronas en las capas escondidas, es la habilidad de la red para modelar func iones más complejas. Por ejemplo si tomamos un s olo perc eptr on, este solo se puede aplicar para pr oblemas de c lasificac ión donde los datos s on linealmente separ ables; c ontrario al caso de una compuerta exor, para res olver este problema s e debe adic ionar más perceptr ones a la red neur onal. El hecho anterior esta ex plic ado por el siguie nte Teor ema. Teor ema de Cybenko. Una red neur onal feedfor ward con suficiente número de neur onas esc ondidas y con funci ones de ac tivación c ontinúas y difer enci ales pueden aproximar cualquier función conti núa sobre c ualquier inter valo cerrado 12.. 11. http://www. nd.com/neurosolutions/products/ns/ whatisNN.html “Approxi mation by superposition o f a Sigmoidal Fun ction, Mathematics o f Control, Sign als and Systems”, Cyb enko.G, Vol 2 , No4 , pp 303-314 1989 12. 17.

(18) IEL2-1-05-07 Los pes os de red son actualiz ados usando el algoritmo de aprendizaje de Backpropagation.. 2.2 Algoritmo de Aprendizaje de Backpropagation En el algor itmo de Bac kpr opagation los pesos de la r ed s on actualizados dinámic amente. La r ed debe aprender a partir de un conjunto inicial de datos. El apr endiz aje de la r ed esta deter minado por la función de err or que se esc oja, para nuestr o problema escogemos la func ión de error c uadrático (Ec.2), donde N es el tamaño del c onjunto de datos que se le conoc e la s alida. La meta del algoritmo es minimiz ar la func ión de error en función de los pes os de la red. Para las neur onas de la última capa c onocemos la salida a la c ual queremos llegar , el problema apar ece cuando queremos deter minar la salida para las neur onas escondidas. Este se conoc e c omo el pr oblema de asignación de créditos, si la r ed produc e una salida no deseada no es pos ib le deter minar c ual neur ona cometió el err or. Backpropagation no es ev ita esta pr eoc upac ión.. N. E = ∑ Em = i =1. 1 N ∑ (d (i ) − y (i)) 2 2 i= 1. EC.2.2. La func ión de error es difer énciable y la func ión de activación de las neur onas también, entonces podemos evaluar la deriv a del error c on res pecto a. los. pesos de la red y así determinar con c uales obtengo el error más pequeño. Cons ider emos una red neur onal con una estr uctura cualq uier a y una neurona j que esta ubic ada en la capa i, la salida de la neurona estará dada por las conex io nes wjk con la capa i- 1 y su func ión de activación, note que zk puede ser la s alida de una neur ona o una entrada xk ( EC 3) y que zj se puede tomar como la salida de la r ed y o c omo la salida de una neurona de la r ed.. z j = f (g ij ). EC 2.3. g ij = ∑ w jk z k k. Tomando la ec uac ión 2 v emos que la derivada del err or es igual a la s uma de las deriv adas del err or Ei con r especto a los pesos de la r ed. Calc ulemos la. 18.

(19) IEL2-1-05-07 deriv ada del error E m con respecto a los pesos w jk . La maner a como los pesos afectan E m esta deter minada por la s umator ia de la ecuación 3, aplic ando la regla de la c adena obtenemos: i ∂ Em ∂E ∂ g j = mi ∂w jk ∂g j ∂ w jk. EC 2.4. Evaluando la ecuación 3 obtenemos que:. ∂g ij ∂w jk Bie n ahor a debemos encontrar. ∂E m. = zk. ∂g ij. EC2.5. , par a esto empezamos por la s alida. de la red, o sea, z j =y retomado la ec uación 3, tenemos:. ∂Em ∂E = f ' ( g ij ) m i ∂g j ∂y En nuestro cas o ∂Em. ∂y. EC2.6. = − (d m − y m ) .Para enc ontrar la der ivada con res pecto a. los pesos las demás neuronas escondidas de la red s eguimos la regla de la cadena. ∂Em ∂g ij. =∑ l. ∂E m ∂ g i+ 1l ∂ g li+ 1 ∂g ij. EC2.7. La s umator ia r ecorr e todas las c onexiones hacia delante que tiene la neur ona j. Hallando la derivada de: ∂g il +1. ∂g ij. = wlj f ' (g ij ). EC2.8. Reemplazando en la ecuación 7 llegamos a: ∂Em ∂g. i j. = f ' ( g ij )∑ w lj l. ∂ Em ∂g il +1. EC2.9. A esta última formula se conoc e como la for mula de backpropgati on pues para calcular ∂Em. ∂ g li+ 1. , debemos empez ar por c alcular ∂Em. ∂g j. para las neur onas. de la última capa utilizando la ecuación 8, después propagar la for mula hasta. 19.

(20) IEL2-1-05-07. dar c on la neur ona j de la capa i. Finalmente la deriv ada del error con r especto al pes o wjk esta dada por : ∂ Em. = z k f ' ( g ij )∑ w lj. ∂w jk. l. ∂ Em ∂ g li+ 1. EC2.10. Ahor a contamos con una herr amienta de gr an utilidad para ens eñar a la red neur onal. El algoritmo de apr endiz aje de backpr opagation, sigue como idea el algoritmo de optimización de descens o de gradiente. Se comienza por un punto inicial elegido al azar w ( o ) . A par tir de es te punto s e empez amos a ex plor ar. la. superfic ie de la función de error en el espac io de los pesos de la red en busca de mínimo global, el paso es pequeño y s e hace en la dirección donde decr ece más el error, es decir la dirección opuesta al gradiente evaluado en w ( t) .. w( t +1) = w (t ) + ∆ w ( t +1). w. EC2.11. = w −η ∇E w( t ) (t ). Donde η es la tasa de apr endizaje que deter mina el tamaño del paso, de acuer do a la escogencia de este parámetr o E disminuirá en c ada paso que se da. Si η es grande puede s er que el algoritmo pase por encima de mínimo y el error E empieza a crec er.. Pseudo Algoritmo de Backpropagation 1. Inicializar w ( o ) aleator ia mente. 2. Mientr as c ondición de terminación. 3. Aplicar una entrada a la r ed X i 4.. Calcul ar ∇ Ei w (t ) 3.1 Hallar la salida de c ada una de las neur onas tanto las esc ondidas como las de s alida. 3.2 Usar Back pr opagation par a hallar ∂ Ei us ando la EC2.9 ∂g j i. 3.3 Evaluar la deri vada usando la EC10, si ∇ Ei 4. Ac tualizar l os pesos EC11. Volver a 2. La derivada. w (t ). =0 STO P.. total de la r ed c on respecto a los pesos se pueden obtener. repitiendo los pas os anter iores para todo el c onjunto de los N datos y después sumándolos.. 20.

(21) IEL2-1-05-07. La c ondición de terminac ión puede s er el número máximo iterac iones que se quieran hac er o que se halla llegado a la meta de error . Existen diferentes maneras de inicializar los pesos de la red en el paso 1, pueden ser aleatoria mente, c omo también aplicando algor itmos de inicializac ión y a propues tos, que se encuentran implementados en el Toolbox de r edes Neuronales de Matlab.. Deficiencia s con Backpropagation La defic ienc ia que tiene el algor itmo de apr endizaje Backpr opagation aplicado a nuestro pr oblema es que este es lento par a adaptar los pesos, lo cual no permitir ía que la r ed se adaptara a tiempo, antes de la llegada del próx imo marco. Esto ultimo esta explicado por que es un algor itmo que s e basa en las deriv adas de pr imer or den. A dicionalmente, dependiendo de la for ma que tome la superficie de error el algor itmo s e puede es tanc ar en un mínimo local. Ex isten algoritmos que s on más r ápidos , utilizando s egundas derivadas . La razón por la que introducimos el algoritmo de b ackpropagation es que este es de gr an utilidad para calc ular la matr iz Hess iana y el Jacobiano de la func ión de error, además que sirve de bas e par a compr ender la maner a c omo aprenden las redes neur onales.. 2.3 Algoritmo de apr endizaje Levenverg M arquardt Este es un algor itmo de segundo or den; a difer encia de otr os algoritmos de optimización, c omo por ejemplo gradientes c onjugados, método de Newton 13 que pueden ser utilizados para difer entes func iones de error , dis eñado exclusivamente par a minimiz ar la func ión de err or cuadrático, ec uac ión 2. Este algoritmo ha demostr ado ser más eficiente que otros algor itmos de aprendiz aje, adic ionalmente su veloc idad de convergencia es mayor debido a que no debe calcular la matriz Hess iana. Esto se explicar a enseguida, r etome mos la N ecuac ió n 2, E (w (t +1) ) = 1 ∑ ( d (i) − y (i )) 2 . Como vimos en la sección anter ior, la. 2. 13. i =1. “Neural Networks fo r Pattern Recognition”,C.Bishop, Oxford Univeristy Press, 1995. 21.

(22) IEL2-1-05-07. actualización de los pes os esta dada por w (t +1) = w (t ) + ∆w . Bien si toma mos la expansión la serie de Taylor de la ecuación 2 alr ededor de w ( t) , tenemos que: E (w ( t+ 1) ) = E (w (t ) ) + ∆w * ∇E +. 1 ∆wH∆w + ...... EC 2.12 2. Para minimizar la ecuación 12, c alculamos el gr adiente y igualamos a cer o: ∇ E(w ( t +1) ) = ∇E + ∆wH + ... = 0 EC2.13. Tomando solo los dos pr imeros tér minos, podemos deter minar el tamaño del siguiente paso es en dir ecc ión opues ta al gradiente modificado por la inv ersa de la matriz hess iana de la función de error, la matr iz Hess iana nos da mas infor mac ión de cómo es la s uperfic ie del error c erc a al punto donde estamos parados ∆w . ∆w = −∇E * H − 1 EC2.14. Ahor a debemos darnos a la tar ea de hallar la invers a de la hessiana, definimos e como el vector de err ores de la r ed e = [E1 , E2 ,........, E N ]T , note que E=. 1 N 1 (d (i) − y(i )) 2 = e * e T . Consideremos pr imero la primer a der iva del ∑ 2 i =1 2. error con res pecto a un peso w j de la r ed, tendr íamos que: ∂Ei ∂ E ∂E ∂E ∂E (w t ) N = ∑ Ei = eT [ 1 , 2 ,........, N ]T EC2.15 ∂wj ∂w j ∂w j ∂w j ∂w j i =1. Esta última ecuación s e puede escr ibir par a todos los pesos w j de la red como: ∇ E(w ( t ) ) = e T * J EC2.16. Con ⎡ ∂E1 ⎢ ∂w1 ⎢ ∂E 2 ⎢ ∂w1 J=⎢ . ⎢ ⎢ . ⎢∂E N ⎢ ∂w1 ⎣. ∂E1 ∂E 2. ∂E N. ∂w2 ∂w 2 . . ∂w 2. ⎤ ∂wk ⎥ ⎥ ∂E 2 ∂E 2 ∂w 3 ..... ∂w k ⎥ ⎥ . . ⎥ ⎥ . . ⎥ E ∂E N ∂ N .... ∂w 3 ∂w K ⎥⎦ ∂E1. ∂w3 ...... ∂E1. Para hallar J usamos bac kpr opagatio n. J es una matriz con dimens iones Nxk, se c onoc e c omo la matriz jacobiana.. 22.

(23) IEL2-1-05-07. Para encontrar la matriz. Hess ia na der ivamos por s egunda v ez. respecto a los pes os de la r ed, ∇ 2 E (w (t ) ) =. E (w t ) con. ∂ (e T J ) , tomemos primer o a que es ∂w. igual la hessiana con r es pec to a los elementos wj y wl de la red neur onal. N ∂2 E ∂E ∂E i ∂ 2 Ei =∑( i + Ei ) ∂wl ∂w j i =1 ∂wl ∂w j ∂wl ∂ w j. ⎡ ∂E1 ⎤ ⎢ ∂w ⎥ ⎢ j ⎥ EC2.18 ⎢ . ⎥ 2 ⎡ ∂E ∂E ⎤ ∂ Ei = ⎢ 1 ,....., N ⎥ ⎢ . ⎥ + e T ⎥ ∂wl ⎦ ⎢ ∂wl ∂w j ⎣ ∂wl ⎢ ⎥ ⎢ ∂E N ⎥ ⎢ ⎥ ⎢⎣ ∂w j ⎥⎦. Dado que las componentes de err or e son pequeñas c erca del mínimo, podemos obviar el segundo tér mino tenemos que en notac ión matric ial: H = ∇ 2 E (w ( t) ) ≅ J '*J EC 2.19. Un problema con esta aproximación es que muc has v eces la matr iz hessiana no es invertible, par a r esolver este inconv eniente adicionamos un s egundo ter mino µI tal que: H = ∇ 2 E (w ( t ) ) ≅ J '*J + µI EC2.20. Ya podemos s aber el tamaño del paso que debemos tomar , reemplazando la ecuac ió n 20 en 14 tenemos: ∆w = −∇ EH − 1 = − eT J (J T J + µI )− 1 EC2.21. Nuestra siguiente tarea es calcular. el Jacobiano; lo bueno es que este. problema y esta r esuelt o pues c ontamos con una gr an herramienta, backpropagation. Mas adelante dar emos un ejemplo para calc ular el jac obiano para la r ed de nues tro pr onos tic ador . Habiendo explicado lo anterior podemos intr oduc ir ahora el algor itmo de Levenver g Mar quar dt.. 23.

(24) IEL2-1-05-07. P seudo Algoritmo de Aprendizaje Levenverg Marquardt 1. Inicializar l os pes os. 2. µ=0.001 3. Mientras c ondición de terminación. 4. Calc ular para cada entrada:. a. La salida del red y(i). b. Calc ular el error d(i)- y(i). 5. Calc ular el Jacobiano de la r ed usando back propagation. 6.. Mientr as µ< µmax 6.1 Calc ular ∆w, ecuación 21. 6.2 Evaluar el err or para E ( w+ ∆w) 6.3 Si E( w+ ∆w)< E( w) 6.3.1 µ = µ *0.1, vol ver a 3. 6.4 Si no µ = µ *10, volver 6.1. 2.4. Problema de ajust e de La Arquitect ura de la Red Neuronal y. Validación Cruzada La func ión del algoritmo de apr endizaje es ajustar la salida s egún la entr ada. De ac uerdo al error se realiz a la modificación de los pesos de la red neuronal dentr o de una arquit ectur a de red dada a pr iori. Par a que el desempeño de la red s ea el mejor pos ible, los algor itmos de apr endizaje buscan que los pesos se ajusten lo más cercano a las muestras del c onjunto de entrenamiento. Por cons iguiente el desempeño de la r ed depende críticamente que la mejor soluc ión se enc uentre en es pacio de los pes os, el cual esta r estringido por la arquitectura de la red que se esc oja. El pr oblema de encontrar una arquitectura optima par a nues tro pronosticador, lo podemos ver c omo la bús queda de un punto s obr e el es pac io de todas las arquitecturas posibles que mejor s e ajuste a los cr iterios de desempeño. El cr it er io puede ser el err or de entr enamiento mas bajo, la c omplejidad de la r ed mas baja etc. El número de neuronas y sus conex io nes dentr o de la r ed tiene un efecto signific ativ o en el desempeño que se desea para la r ed y su capacidad para generalizar ; de acuer do a la c antidad de c onex iones es su c apacidad par a almacenar información. Si por ejemplo se tiene una r ed que posee más c onex iones de las nec esarias, es muy posible 24.

(25) IEL2-1-05-07. que la red pierda su habilidad para gener aliz ar, este pr oblema se conoc e c omo sobre ajuste; la r ed neur onal s implemente estar ía me mor izando los ejemplos del c onjunto de entr enamiento. La otra car a de la moneda, es que la red neur onal no tenga sufic ientes conexiones y por lo tanto no es capaz de aprox imar la función que descr ibe la r elac ió n entrada s alida. En conclusión lo que buscamos es que la red neuronal aprenda lo suficiente de pas ado para que pueda generalizar en el futuro. Por lo tanto par a el diseño del pr onos tic ador debemos encontr ar la mejor arquitectura de acuerdo a c ierto cr it er io , dentr o del gran conjunto de arquitecturas pos ibles. Por suerte existen var ias herramientas para l ev ar a cabo esta búsqueda, entre las mas usadas encontramos la Validaci ón Cruz ada. En Validación Cruz ada, el c onjunto de entr enamiento s e divide aleatoria menté en K subconjuntos diferentes. Después se pr ocede a entrenar la r ed usando K1 subconjuntos dejando uno par a evaluar la func ió n de error . Este proces o se repite para cada uno de los s ubconjuntos. La ventaja de es te pr ocedimiento es que per mite us ar una mayor pr oporción de los datos disponibles para entr enar la red. Además que s e us an todos los puntos par a evaluar el error de validac ión cruzada. La Validación cr uz ada es de gran utili dad par a escoger la arquitectura de la red aplicada al pr oblema en partic ular. Toma mos la arquitectura con el error de validación más pequeño.. III. Pronosticador de trazas de video M PEG Ahor a s i llegamos a la parte más inter esante de todo el proble ma, donde vamos a aplic ar toda lo que hemos apr endido en las s ecciones anterior es. Empecemos por enunciar las propiedades que debe c umplir el pr onos ticador de tal manera que podamos c alificar su desempeño. El pronosticador debe responder apropiadamente a los datos mostr ados anterior mente solo s i esos datos no están en conflicto c on nuevos datos que s on pres entados a la r ed. La adaptación del pr onostic ador a los nuevos datos s e debe realizar aún si está esta en contr a de los datos anter iores. Los algor itmos de adaptación y de aprendiz aje deben ser c apaces de adaptars e lo más r ápido posible antes de que llegue el s iguiente dato o tas a de tr áfic o. La princ ipal dificultad es enc ontrar la mejor estimación de la función que me relac ione la entrada y salida del modelo; este problema y a esta res uelto por el 25.

(26) IEL2-1-05-07. teorema de Cybenko. Veamos más detenidamente c omo deber ía s er esta función. La pr edicción de la s iguiente tas a de tr áfico MPEG. puede ser. obtenida usando una combinac ión lineal de las de las traz as de tráfico MPEG medidas anteriormente, estas medidas se car acter izan por estar positiv amente correlacionadas c omo se mostró en la s ección I. Por la forma c omo s e codifica el video, c ada marco esta relacionado con respecto a los marcos anterior es como c ons ec uenc ia de la c ontinuidad de la traza video y al algoritmo de codif ic ación MPEG . Los modelos gener ados para el tr áfico de video, pueden s er utiliz ados como pronosticadores de las tasas de tráfic o en la fuente de video dur ante la operación de la r ed. Los modelos propues tos en la liter atura son lineales y no lineales. El modelo lineal, AutoRegr essive Moving Aver age ( ARMA), dado por la siguiente ec uación: x t+1 = c0 + c1 xt + c 2 xt −1 + c3 xt+ 3 + ..... + c p xt − p EC3.1. Este modelo solo sirven para modelar traz as de v ideo que s on muy s uav es, por lo tanto no son aplic ables a nues tro pr oblema donde el tráfico MPEG es muy var iable.Como r esultado los mejores modelos propuestos descr iben una relac ión no lineal entre las entradas y la salida. Las r edes neur onales con retardos natur ales en sus entradas pueden aprender a generalizar de modelos ARM A14 de la forma: x t+1 = f (x t , xt −1 , x t+ 3 ,.....xt − p ) EC3.2. Inclus iv e cuando hay suficientes datos dis ponibles y el pr oceso es no lineal las redes neur onales pueden proporcionar un modelo más cercano que el modelo ARM A lineal de la ec uación 3.1. Existe una relación altamente no lineal entre la entrada y s alida del modelo. dada por las fuentes de v ideo c odificadas,. debido a la c omplejidad del c ontenido de cada traza c omo los cortes de escenas, degr adac ión de las condic iones de luz y ac erc amientos de cámar a etc . Dado que cada tipo de marc o I, P y B pres entan diferentes propiedades estadísticas , el modelo par a cada marco es difer ente y por lo tanto la arquitectura de la r ed neuronal debe ser difer ente par a c ada uno.. 14. “Recurrent Neural Netwo rks and Robust Ti me Series Prediction”, J.Connor, R.Douglas, IEEE Transactions on Neural Netwo rks, Vol 5 No2, March 1994. 26.

(27) IEL2-1-05-07. 3.1 Descripción de la Solución [1] Sea x c (n ) la tasa de tráfico de c∈ { I, P, B} marco de la tr aza, note que esta n se r efier e a la n-sima muestra de la traz a de marc os c, mas no de la traza de nsima muestr a de la tr aza total. Rescribiendo la ec uación 3.2 x c (n ) = h c ( x c (n − 1), x c (n − 2 ),....., x c (n − p )) + e c (n ) EC3.3. Donde ec (n ) es independiente e idéntic amente distr ibuido error c on media. µ c (n ) y desviac ión es tándar σ c (n ) . Por simplic idad obviamos el super índic e c en la notación. La ar quitec tura gener al de nues tra red neuronal esta dada por la figura 4. La r ed neuronal esta integr ada por una capa esc ondida de l neur onas con funciones de activ ación tan-si gmoi dal, una neur ona de salida c on función de activación lineal y p entr adas. Hallemos una expr esión matemátic a para la salida de red y par a cada una de las neuronas de la capa esc ondida.. Fig. 4 ( D. Doulamis[1]). [. ]. Sea w i= w i,1 , w i,2 ,..., wi, p +1 , i = 1,2..., l , donde la c omponente wi , j es al c onex ión T. de la neurona i de la capa esc ondida, con la entr ada j, incluy endo el bias. Definimos. v= [v1 , v 2 ,...., vl ,θ ] como el v ector que c ontiene los pes os de la T. conex io nes de las neuronas de la c apa escondida c on la neur ona de salida y Ө. 27.

(28) IEL2-1-05-07. [. el bias. Llama mos W= w1T , w2T ,...., w Tl , v T. ]. T. como el v ector que c ontiene todos los. pesos de la red neuronal. La salida de la r ed nos da un estimado de x(n).. yW ( X (n − 1)) = V TU ( X (n − 1)) + θ ≅ x (n) EC3.3. Con. T ⎡ u1( X ( n − 1)) ⎤ ⎡ f (w1 ⎢ ⎥ ⎢ . U ( X ( n − 1)) = ⎢ ⎥=⎢ . ⎢ ⎥ ⎢ T ⎣⎢ ul ( X ( n − 1)) ⎦⎥ ⎢⎣ f (w l. X ( n − 1)) ⎤ ⎥ . ⎥ . ⎥ X ( n − 1)) ⎦⎥. X ( n − 1) = [¨x(n − 1),...., x(n − p),1]. T. La red es inicialmente entrenada con N datos medidos inicialmente,. Sinit = {( X ( p), x ( p + 1)), ( X ( p + 1), x( p + 2)),........, ( X ( N + p − 1), x (N + p))} EC3.4 El algor itmo que us amos para entrenar la r ed inic ialmente es Levenverg Marquardt. Co mo vimos en la s ección I, este algor itmo tiene muchas ventajas por enc ima de otros algor itmos de entrenamiento. Renombrémoslas para recor darlas, es un algor itmo efic iente y de c onv ergenc ia r ápida gracias a que es un algor itmo de s egundo orden que no r equier e del calc ulo de la matriz hess iana, si no de una aprox imación ec uación 2.19. Par a la escogenc ia de p y l, es decir la arquit ectura de la r ed, usaremos el método de validación cr uz ada. Esto nos ay udara a apr ovechar mejor maner a la capacidad de generalizac ión de las r edes neuronales, aplicada en particularmente en es te problema. Dado que las c ar acter ís ticas del tr afico M PEG var ían constantemente dur ante el tiempo mantener c ons tante los pesos de la r ed neuronal no es c onv eniente como se muestr a en las siguientes graficas, par a la tr aza Star Wars IV.. 28.

(29) IEL2-1-05-07 Marc os I. Marcos P. 1500. 2500. 1000 2000 500 1500. 0 s/ et y B. s/ et y B. -500. 1000. -1000 500 -1500. -2000. 0. 50. 100. 150. 200. 0. 250. 0. 20. 40. 60. 80. Marc o. 5a. 100 Marc o. 120. 140. 160. 180. 200. 5b. Marcos B. 1400 1200 1000 800 s/ et y B. 600 400 200 0 -200. 0. 20. 40. 60. 80. 100 120 Marcos. 140. 160. 180. 200. Fig. 5c Figur a 5. G rafica del des empeño de pr onosticador sin adaptaci ón Como v emos par a I, P y B cada una de las redes utilizadas dejan de ser un buen pr onostic ador de x(n+1) . En los tres cas os se usaron un c onjunto de entrenamiento igual a 100 datos . Para I, figur a 5a, vemos que la red pier de la traza a partir del marco 150, para P y B en marco 160. Par a mantener el desempeño del pr onostic ador a medida que c ambia el pr oceso, la red debe adaptar s us pesos de ac uerdo a las condic io nes dadas al inic io de es te c apitulo. Denotemos por de Wb los pesos de la red antes de que aplic ar el algor itmo de adaptación. As umamos que estos pesos han s ido es timados usando un conjunto S de la for ma de la ecuación 3.4 y de tamaño N. A si mis mo l ame mos. Wa como los pes os de la r ed que se obtienen después de la adaptac ión. El proc eso de adaptación s e activa c uando la estimación de x( n) tiene un error. 29.

(30) IEL2-1-05-07. más grande que T, es dec ir x(n) − xˆ > T donde T es la toler anc ia al error. Entonces us aremos Wa par a estimar x(n+1). La búsqueda de Wa se puede entender mejor c omo la minimizac ió n de la ecuac ió n 3.4 donde tomamos la s iguiente notac ión por s implicidad yw (i) es la salida de la r ed par a la entrada X(i) y d(i) es valor que s e desea obtener :. E (n ) =. 1 N 1 (d (i ) − y w (i)) 2 + ( x(n) − yw ( X (n − 1)) 2 EC3.4 ∑ 2 i= 1 2. La ec uación 3.4 es minimizada de tal manera que y w ( X (n − 1)) ≅ d ( N + 1) = x(n) , pero con un mínimo c ambio en la s alida par a las muestr as anter iores.. 3.2 Proceso de Linealización Tome mos la restr icción para la minimiz ación de la ec uac ión 3.4.. d (N + 1) = vaTU = (v b + ∆v )T U. EC3.5. Donde U es el vector definido por la ecuación 3.3, entonc es c ada c omponente de U es taría dada por la s iguiente ecuación.. [. ]. u i = f wiT,a X (n − 1) , i = 1,..., l. [ = f [w. = f (w i,b + ∆w)T X (n − 1) T i, b. ]. X (n − 1) + ∆wT X (n − 1). ]. EC3.6. Encontr emos una ex pres ión que r eúna en una s ola ex presión U, c on este fin definimos Wb = [w1,b , w 2 ,b ,....., wl ,b ] y de la mis ma manera Wa . Podemos rescr ibir. U como,. [ f [W. U = f W aT X (n − 1) U=. T b. ]. X (n − 1) + ∆W T X (n − 1). ]. EC3.7. Aplic ando la expansión de la ser ie de Taylor de primer orden alr ededor de. WbT X (n − 1) igual a q, ∆W T X (n − 1) igual a ∆q y llegamos a que: U ≅ f (q) + ∇ q f (q)∆q EC3.8 Donde ∇ q f (q) es el gradiente f (q) c on res pecto a q. La apr oximación de la ecuac ió n 3.8, es valida c uando la Matriz Hess iana H de f ( q), H ππ 1 . Requer imos que la perturbación ∆ W o ∆ q sea lo sufic ientemente pequeña para que:. 30.

(31) IEL2-1-05-07. ∆q << f (q ) / H. La desigualdad se aplica a cada c omponente del v ector f(q). Como f i (.) = f (.) es la i-s ima componente de f(q) que esta solo en func ión de qi , con i=1,2,…,l, llegamos a que: ∂f i (q ) ∂q j. =. ∂f i (q j ) ∂q j. = f (q j )(1 − f (q j ))δ i − j = u i, b (1 − u i, b )δ i− j EC3.9. Donde δ y es 1 c uando y es igual 0, por lo tanto ∇ q f (q ) = ∇ qU b es una matriz diagonal descr ita por : .. 0 ⎡u1 ,b (1 − u 1, b ) ⎢ . u i, b (1 − u i ,b ) ∇ qU b = ⎢ . ⎢ ⎢⎣ 0 0. ⎤ ⎥ ⎥ EC 3.10 . ⎥ u l, b (1 − u l , b )⎥⎦ 0 .. Llegamos a una expr es ión que me nos apr oxima c omo es U a , U a es ta dada por: U a ≅ U b + (∇ qU )∆W T X (n − 1) EC 3.11. Retome mos l a ec uación 3.5 y r eemplacemos este último r es ultado que acabamos de obtener: d (N + 1) = v Ta U a = (vb + ∆v)T U a d (N + 1) = vbT U a + ∆vT U a d (N + 1) = vbT (U b + ∇ bU∆W T X (n − 1)) + ∆v T (U b + ∇ bU∆W T X (n − 1)). EC 3.11. d (N + 1) − vbT U b ≅ v Tb ∇ bU ∆W T X (n − 1)) + ∆vT U b + ∆v T ∇ bU∆W T X (n − 1)). Note que el ter mino de la iz quier da del ultimo res ultado de la ecuación 3.11, es el err or de pr onos tic ación que se obtuv o de. x(n) usando Wb , antes de la. adaptación. Par a que la linealiz ación 3.11 sea valid a es neces ario que ∆W T se pequeño. A hora si, ∆v << v , el último ter mino de la ecuac ió n 3.11 puede ser omitido. Finalmente obtenemos : d (N + 1) − vbT U b ≅ v Tb ∇ bU ∆W T X (n − 1)) + ∆v T U b EC 3.12. 31.

(32) IEL2-1-05-07. La ec uación 3.12 es una ecuac ió n lineal con r especto a ∆W T y ∆v T , esto se puede deducir viendo el lado derecho de la ec uac ión. Bien, si reor ganizamos los términos del lado derecho de la siguiente for ma obtenemos :. [. ]. a T ∆W = vec{s * X T (n − 1)},U b ,1 ∆W EC3.13 T. Con s = ∇ qU b vb y vec{s * X T ( n − 1)} es un v ector for mado de por todas las filas organizadas una detrás de la otra, note en la ecuac ión 3.13 ∆W es W el vec tor de c on todos los pes os de la red neuronal. Uniendo la ecuación 3.13 y 3.12 obtenemos : c = a T ∆W EC 3.14. Tenemos un s istema con (l*(p+1) +l+1) incógnitas y una sola ecuac ión, por lo tanto podemos obtener muchas soluciones posibles . La unicidad de la s oluc ión esta dada por la condic ión impuesta a la adaptación del pronosticador. al. comienzo del capitulo, r ecor demos que dice, el pr onos ticador debe res ponder apropiadam ente a los datos m ostr ados anteriormente solo si esos datos no están en conflicto c on nuevos datos que s on presentados a la red, es decir que el cambio en los pes os Wa debe tener el míni mo efecto posible en solo los N datos anterior es. Par a medir el efecto que tiene un cambio en los pesos s obre y w (i) . Retoma mos la ecuac ión de error 2.2. N. E = ∑ Em = i =1. 1 N (d (i) − yw (i )) 2 ∑ 2 i =1. La sens ibilidad de la s alida con r es pec to a los pesos esta dada por : ⎡ ∂y (i) ⎤ ∂ Em = −(d (i) − yw (i )) ⎢ w ⎥ EC 3.15 ∂w jk ⎣⎢ ∂ w jk ⎦⎥. Para los pesos de salida tenemos: ⎡ ∂y (i) ⎤ = −(d (i) − y w (i )) ⎢ w ⎥ EC 3.16 ∂v j ⎣⎢ ∂ v j ⎦⎥. ∂Em. Para encontrar estas der ivadas rec urrimos al método de backpropagati on, es as í c omo obtenemos par a los pesos de capa de s alida:. ∂y w (i) = uj ∂v j EC3.17 ≡ DVij Para los pesos de capa de entr ada: 32.

(33) IEL2-1-05-07. ∂y w (i ) ∂y w (i) ∂ uk (i ) = ∂ w jk ∂ uk ∂w jk l. l. =. ∂ yw (i ) l. ∂ ∑ ui vi. ∂ ∑ ui vi. ∂uk. i =1. ∂uk. ∂ ∑ x j w jk. l. j=1. ∂ ∑ x j w jk. i=1. ∂ w jk. = v k uk (1 − uk )x j EC3.18. j =1. ≡ DW i, jk Llegamos a la siguiente expr es ión para descr ib ir la sens ibilidad del err or ante un cambio en los pes os de la red:. ∆Em =. ∂ Em. ∑ ∂w jk. jk. ∆w jk + ∑ k. ∂E m ∆vk EC 3.19 ∂ vk. Reemplazando las ecuac io nes 3.15 y 3.16 en la última ec uac ión; podemos rescribir la ecuación c omo: ∆E m = (em )[∆Wvec,1 ,Wvec, 2 ,....,∆Wvec, t : ∆v1 ,.....,∆vh ][DWm , p .....DWm, l .......DVm ,1......DVm, l ]T EC3.20. Donde em = −(d(m) − y(m)),1 ≤ m ≤ N y t = l * p . Rescribiendo obtenemos:. ∆E = AS∆W EC 3.20 Donde: ∆Em es el m- esimo elemento de ∆E . A es la matr iz diagonal, c uyos elementos de la diagonal son em ,1≤ m ≤ N ⎡ DW1 ,1 .... DW1, t ⎢ . . ⎢ ⎢ S= . . ⎢ ⎢ . . ⎢ ⎢⎣ DW N , 1 .... DW1, t. DV1, 1 ... DV1, l ⎤ . ⎥ . ⎥ . ⎥ ⎥ . . ⎥ . ⎥ DV1, 1 DV1, l ⎥⎦. Los pes os Wb son óptimos par a minimizar E( N) . Con la llegada de una nueva tasa de tráfico, y que su estimación obtenida fue más grande que la tolerancia al error , T, la func ió n de error cambia; la nuev a func ión objetivo puede ser escrita como, par a fac ilitar la notac ión escr ibimos J (∆W ) = ∆E : J =. 1 N 1 N 2 ( ) E − E = ∆E m2 EC 3.21 ∑ ∑ m , Wb m , Wa 2 m= 1 2 m =1. 33.

(34) IEL2-1-05-07. La ultima ecuac ió n no dic e que el c ambio en los pes os debe s er de tal manera que s e afecte en la maner a menos pos ible, la s alida de la r ed c uando se pres ente algún dato anterior. Bien, utilizando la ecuac ión 3.20 para r escribir la ultima ec uac ión. Obtenemos : 1 ( ∆E) T ( ∆E) 2 = ( AS∆W ) T ( AS∆W ) EC 3.22 J =. =. 1 ∆W T K ∆W 2. Con: K = S T ( AT A)S . Llegamos a que el problema s e c onv irtió en un problema de progr amac ión cuadr ática, dado por las s iguientes ecuaciones . M inimizar. J = sujeto a.. 1 ∆W T K∆W 2. c = aT ∆W. La func ión objetiv o es una función c uadrática, cuya for ma esta dictada por valor es y vector es pr opios de la matriz K. La for ma que toma es la de una hiper elipsoide de dimensión q=(( p+1)*l+l +1), centr ada en el origen del pla no ∆W . La soluc ión al s istema debe es tar s obre el hiper plano c = aT ∆W de dimensión (q1). Dado que asumimos pertur bac iones pequeñas para que la linealizac ión sea valida, solo ∆W pequeñas s on per mitidos. Además debemos restringir el espac io de las s oluc iones pos ibles ∆W que minimiz an J. Cuando no hay fronteras definidas para el mov imiento de ∆W , podemos llegar a un punto. ∆W * que minimice la función objetivo per o que viole sev er amente la condiciones de linealizac ión de la ecuac ión 3.12. Es por esta raz ón que el movimiento de ∆W debe se estar res tringido por las fronteras de la caja C . El tamaño de la c aja no deber ser muy pequeño por que si no es posible que no exista una solución que s atisfaga las dos condic iones. Lo anter ior nos llev a a definir el tamaño de la c aja de tal forma que la condic iones de linealización de la ser ie de Tay lor se satisfagan y al mis mo tiempo que tenga un tamaño lo. 34.

(35) IEL2-1-05-07. suficientemente gr ande para que per mita que ex ista una solución s obre el plano c = aT ∆W . De acuerdo a lo dic ho anter ior mente definimos un c onjunto de puntos en el plano ∆W como:. ρ ρ C = ∆W : −l ≤ ∆W ≤ l EC3.22. {. }. ρ T Donde l = [l1 , l 2 , ......., l q ] con todas sus c omponentes pos itivas . Para as egurar la inters ección de la caja c on el hiper plano for mado por c = aT ∆W , C debe contener por lo menos ∆Ŵ definido como el punto que tiene la distancia míni ma al or igen y esta s obre el hiper plano. ∆Wˆ = ca. aT a. EC3.26. ρ Utiliz ando ∆Ŵ podemos definir el tamaño de C como l = k∆Wˆ , k ≥ 1 . Entonces. entre más gr ande es el tamaño de k más pequeña ser J (∆W ) . Per o debemos tener cuidado de que no esc ojamos un k muy grande por que si no estaríamos violando el proc eso de linearizac ión. Finalmente llegamos a que el proc eso de adaptación de nues tro pr onos tic ador a nuevas tas as de tráfico se convirtió en:. M inimizar. J =. 1 ∆W T K∆W 2. Sujeto a. c = a T ∆W ρ ρ − l ≤ ∆W ≤ l. 3.3 M étodo de Gradiente Reducido Ex isten múltiples métodos de pr ogramación c uadr ática. para soluc ionar el. último pr oblema anter ior , por ejemplo el método de proy ecc ión de gradiente y el método convex o s imple entr e otr os muc hos otros . Revis ando estos métodos vemos que el algoritmo de gradiente r educido es el más adecuado para aplicar. 35.

(36) IEL2-1-05-07. a nuestro problema, dado que las r estr icc iones s on lin eales 15. Es te método es computacional mente similar al método simplex de progr amac ión cuadrática; en la manera como define las v ariables entre bás icas y no básicas. El algoritmo de Gradiente Reducido comienza partiendo las variables entre básic as y no básic as. Las v ariables en el gr upo de básicas s on las dependientes y la var iables no básicas s on las independientes. El númer o de variables básic as esta deter minado por el numer o de restricc iones, en nuestro problema tenemos una sola restr icción lineal por lo tanto tenemos una s ola variable básica. El resto de las var iables ( q-1) son no básic as e independientes. Toma mos la v ariables básic a c omo aquella que esta dentr o de la caja, es decir que podr íamos tomar cual quier a, y a que el algoritmo empiez a des de el punto ∆W * , por simplicidad tomamos la primera de componente de ∆W * , aunque se ρ hubiera podido escoger cualquier otr a. Entonces tenemos ∆W = [∆W D , ∆W I ] , ρ donde ∆W D es la v ariable básica de dimensión uno y ∆W I es un v ector c on q-1. dimensiones . El problema lo podemos rescribir como:. M inimizar ρ ρ ρ 1 J (∆WD , ∆W I ) = (∆W D , ∆W I )T K (∆W D , ∆WI ) EC 3.27 2. Sujeto a. ρ ∆WD * a D + a TI ∆W I = c EC 3.28 ρ ρ ρ − l ≤ (∆W D , ∆WI ) ≤ l EC3.29. Con a = [a D , a TI ]T .. ρ Tenemos que si ∆W I esta es pec ific ado entonces podemos encontr ar ∆W D. utiliz ando la restricción lineal. El m étodo del G radiente Reducido minimiz a la función objetiv o iterativa menté con res pec to a las v ariables independientes . El paso de la var iable dependiente esta deter minado por la ec uac ió n 3.29. De. 15. D. Luenber ger, “Program acion lineal y no lineal” Admission Wesley I bero america 1989 pp 328-366 36.

(37) IEL2-1-05-07. esta manera si. ρ ∆WD (n + 1) = ∆WD (n ) + Step D y ∆WI (n + 1) = ∆W I (n ) + Step I .. Donde n es el número de la iter ación en la que estamos. De acuer do a lo anter ior derivando la ecuac ió n 3.29 con r especto a ∆W llegamos a que, Step = ∆(∆W ) : Step D * a D + a TI Step I = 0 EC 3.30. Despejando tenemos que el pas o de v ariable independiente es igual a: Step D = −. 1 T a I Step I EC 3.31 aD. La for ma de hacer los pasos garantiza que ∆W (n + 1) este sobre el hiper plano dado en la ecuaci ón 3.28. Además tenemos que: ∆WD =. ρ 1 (c − a TI ∆W I ) EC 3.32 aD. Para encontrar la dir ecc ión del movimiento tomamos el método del descenso del gradiente. El gradiente de c ada var iable deter mina la direcc ión del movimiento en cada pas o. El Gr adiente de J esta deter minado por : ρ ∇ ∆W J (∆W ) = (∇ ∆WD J ( ∆W ), ∇ ∆W I J (∆W )) = K∇ ∆WD J (∆W ) = K (∆WD , ∆W I ) EC 3.32. Ahor a tome mos la ec uac ión J y reemplac emos la expresión que obtuv imos en la ecuac ión 3.32 para ∆W D , par a enc ontrar el gr adiente de J con res pecto a la variables independientes, tenemos que J (. ρ ρ 1 (c − a TI ∆W I ), ∆WI ) . aD. Derivando. obtenemos que el gradiente r educido: ρ ρ ρ 1 r T = ∇ ∆Wρ J (∆WD , ∆W I ) − ∇ ∆W D J (∆W D , ∆W I ) a I EC 3.33 I aD. Recor demos que el pas o de cada var iable esta restringido por los lados de la ρ caja C, par a mantener ∆W = [∆W D , ∆W I ] dentro de la c aja definimos la noc ión de c onjunto de trabajo CT. (D. Luenber ger [11]) . El conjunto de trabajo se 37.

(38) IEL2-1-05-07. define como el conjunto de v ar iables que ya toc aron sus fronteras y que si dan el siguiente paso es tar ían v io lando la r estr icc ión de la ecuación 3.29. Para ρ entender mejor la noción de CT tomemos un punto ∆W = [∆WD , ∆WI ] en el cual estemos parados en la it erac ión n. Un c ambio pequeño en las v ariables ρ independientes ∆WI (n + 1) = ∆W I (n ) + Step I generara des pués una s oluc ión factible y depus e us ando la ec uación 3.31 y ∆WD (n + 1) = ∆W D (n) + Step D también se llegar a una solución factible par a la v ariable dependiente.. Si al. moverse una v ariable independiente se hac e activa, es decir que toco las fronteras de s u caja, esta se inc luy e en el c onjunto de trabajo. Si por le contrario la variable dependiente toc a alg una sus fronteras la partición debe ser cambiada tomando una variable independiente que no esta en conju nto activ o y conv ertir la dependiente. Y la var iable dependiente es incluida en con c onjunto de trabajo y se dec lar a independiente. De esta manera podemos deter minar el paso que debe dar c ada una de las var iables . La dir ecc ión de las v ariables independientes se define por la s ig uiente expr esión: ⎧− ri ,∆W I , D ∉ CT Step I = ⎨ EC 3.34 ⎩ 0 , ∆W I , D ∈ CT. Si se halla un punto donde ri =0 para toda i ∉ CT , lo c ual quier e decir que el gradiente se anula en la superficie de trabajo, y existe un j tal que r j < 0 y j ∈ CT entonc es s e eli mina j del conjunto de trabajo. Una vez que el pas o Step I se halla dado por la ecuac ión 3.34,. Step D es encontrado us ando la. ecuac ió n 3.31. El punto ∆W que al final se encuentr e s e desea que sea el mínimo global dentr o de la caja C. Es ta c ondición es asegur ada solo si C es un c onjunto conv exo y la J( ∆W ) es una función c onvexa. A mbas c ondiciones s e dan para nuestro problema. Veamos la c ondiciones de convex idad par a C y J( ∆W ). Con este fin definimos lo que es una función c onv exa y un c onjunto convexo.. Definición1. Conjunto Convexo. Sea A un conjunto en R n se dic e que es convexo Si para todo x1 , x2 ∈ A y par a un 0 ≤ α ≤ 1 , el punto. 38.

(39) IEL2-1-05-07. x3 = αx1 + (1 − α )x 2. Se tiene x 3 ∈ A. Se tiene claramente que C es un conjunto c onv exo, ya que es una caja.. Definición 2. Función Convexa Una función s e define c onvexa sobre un conjunto A c onvex o sol o si para todo x1 , x2 ∈ A y para todo α ∈ R,0 ≤ α ≤ 1 f (αx1 + (1 − α )x 2 ) ≤ α f ( x1 ) + (1 − α ) f ( x 2 ). La pr ueba de que la función J es conv exa es la siguiente: J esta definida como:. J (x ) =. Tomemos la imagen de αx1 + (1 − α )x2 :. 1 T x Kx 2. J (αx1 + (1 − α ) x2 ) = (αx1 + (1 − α )x 2 )T K (αx1 + (1 − α )x 2 ) = αx1T Kα x1 + α xT2 K (1 − α )x 2 + (1 − α )x T2 Kαx1 + (1 − α ) 2 x T2 Kx T2 = α 2 x1T Kx1 + α (1 − α )[ x1T Kx 2 + x2T Kx 1 ] + (1 − α ) 2 x T2 Kx 2. EC A. Sea z = α J ( x1 ) + (1 − α ) J ( x2 ) = αx1T Kx1 + (1 − α ) xT2 Kx 2. EC B. Note que z = α z + (1 − α ) z = α 2 x1T Kx1 + α (1 − α )x T2 Kx 2 + (1 − α )α ( x1T Kx 1 ) + (1 − α )2 x2T Kx 2 Sustr ayendo la EC A con la EC B obtenemos: z − J (αx1 + (1 − α ) x2 ) = α (1 − α )[ x1T Kx1 + x 2T Kx 2 − x1T Kx 2 − x 2T Kx1 = α (1 − α )( x1 − x2 ) T K ( x1 − x 2 ) ≥ 0. Entonces αJ (x1 ) + (1 − α ) J ( x2 ) ≥ J (α x1 + (1 − α ) x2 ) Y por lo tanto J( x) es convexa De acuer do a l o anterior la convergencia al mínim o gl obal dentr o de C esta asegurada.. P seudo Algoritmo G radiente reducido. 39.

(40) IEL2-1-05-07. 1. Inic ia lizar ∆W = ∆Wˆ 2. Divida ∆W en variables básic as y no bás ic as, inic ializ ar CT(∆w) vació.. [. ∆W = ∆w D , ∆W I T ρ T c = a D , a TI ∆W. [. ]. ]. T. 3. Calcular el gradiente r educido. r T = ∇ I (J (∆W )) −. 1 ρ ∇ D (J (∆W )) a I aD. 4. Encontrar la direcc ión de mov imiento para ∆W I ⎧ − ri , i ∉ Work (∆W ) Step I ,i = ⎨ ⎩ 0, i ∈ Work (∆W ). 5. Si Step es c ero, entonc es ∆W es una soluc ion o m> Td/Ti. Si no es as i calcular Step D = −. 1 ρT a I Step I aD. 6. Hallar α1 ,α 2 ,α 3 tal que:. max. {α : ∆w D + αSte pD ≥ 0 } {α : ∆W I + αSte pI ≥ 0 }. min. {J (∆W. max. + α Ste p ) : 0 ≤ α 3 ≤ α 2 ,0 ≤ α 3 ≤ α 1. }. Actualiz amos ∆W = ∆W + α 3 Step 5. Si α 3 ≤ α 1 , volver a 3. Si no v olv er a hac er una nuev a partic ión y tomar c omo dependiente una v ariable independiente que no este en el conjunto de trabajo, conv ertir la v ariable dependiente en independiente.. 3.4 Algoritmo de adapta ción y Funcionamiento de Pronosticador. Ya teniendo a la mano las herramientas descritas en las s ecciones anter iores podemos descr ibir el algoritmo de adaptac ión para el pr onostic ador. Ps eudo algoritmo de Actualización 1. Es timar A y S para calc ular K, usando las ecuaci ones 3.20. 2. Es timar el vector a usando la ec uaci ón 27. 40.

(41) IEL2-1-05-07. 3. Aplicar el algoritmo de gr adiente reducido par a encontrar ∆W que resuelve: ∆E( N + 1) =. Minimizar Sujeto a. 1 ∆WK∆W 2. c = a T ∆W ρ ρ − l ≤ ∆W ≤ l. 4. Ac tualizar los pesos de la red. Wa = Wb + ∆W. Como podemos ver el algor itmo de adaptac ión c umple con las c ondiciones de adaptación descr itas al c omienz o de es ta sección, las perturbaciones realizadas a los pes os obtenidos en el primer entr enamiento utiliz ando el algoritmo de Levenverg M arquardt, son optimizadas hasta el punto que la red no deja de ser obs oleta par a pr onostic ar datos futur os que pueden s er iguales a los anterior es. Es to aumenta la eficiencia del pr onos tic ador pues la adaptación del mis mo no se tiene que ser c ontinuamente; ya que el pronosticador dará una estimac ió n adecuada a tas as de tr áfic o futur a si las entradas s on s imilares a las entr adas que s e la han introducido antes . Esta partic ular idad la podr íamos definir c omo la memoria del pr onostic ador, es decir que la r ed guarda aquellos datos que son más repr esentativ os y desecha aquellos que no lo son. Algoritm o de Adaptación.. X(n-1). Si, si adaptamos. +. x(n) −xˆ(n) >T. x(n). Fig.6 Funcionami ento del Pr onostic ador.. 41.

(42) IEL2-1-05-07. 1. Medimos la tasa de trafico de video N veces . S init = {( X ( p ), x( p + 1)), ( X ( p + 1), x( p + 2 )),........, ( X (N + p − 1), x( N + p ))} 2. Entr enamos l a r ed neuronal utilizando el al goritmo de Levenverg Marquardt. 3. Calc ulamos K. 4. Pronostico par a x( n). Si fin de l a tr aza, Par amos . 5. Llego tasa de tráfico. 4.1 Si, err or de pr onos tico>T, adaptam os la red us ando el al goritm o adaptación. 4.2 Si no, Volvem os a 4.. IV.. Resultados. En esta sección presentamos los resultados que obtuvimos después de la evaluac ión del desempeño del pr onostic ador. Par a la ev aluación del modelo usamos trazas de var ias fuentes de video y de diferentes or ígenes. Entr e las trazas encontr amos películas, ser ies de televis ión, progr amas de deportes y videos de c ámara de seguridad. Las traz as c ons tan de 60 minutos c ada una y están codificadas en el for mato MPE-4, calidad baja. Las fuentes que se us aron fueron: Star W ars , los Simpsom , Carr era de formula 1, Dur o de Matar, Pr ogr am a de Televisión, Cámar a de seguridad en un par queader o. El análisis del desempeño que se r ealizo c ons istió en c ompar ar el des empeño del modelo adaptativo propuesto con otro modelo de adaptación. A demás se tomaron aquellas. traz as. que r epres entaban más. var iabilidad. par a hac er una. compar ación estadística entre el modelo actual y el modelo pronosticado. Los datos fueron nor malizados con media cer o y v arianza 1, y des pués son desnormalizados. Además s e emulo el c ompor tamiento del pr onostic ador en tiempo r eal usando la herr amienta de Matlab Simulink.. 42.

(43) IEL2-1-05-07. Modelo en Simulink. 4.1 Escogencia del Modelo Para la escogenc ia del modelo usamos el método de validación cr uzada; con este fin tomamos el 20% de las tr az a de Star Wars, Los simps oms, F1 para entrenar la red neuronal. El 75% de estos datos se usar on para entr enar la red y 25% r estante para validar el des empeño del las ar quitectur as. El or den del modelo y numer o de neur onas en la c apa escondida óptimos que se obtuvieron se encuentran en la tabla I. Imagen I P B. O rden Numero (p) Neurona s (l) 8 9 12 8 10 5 Tabla I. La metodología us ada par a la evaluación de los res ultados fue la siguiente: Para las tr azas Star Wars, F1 y Simpsom s e trabajar on en su totalidad. La escogencia se debió a que cada una de las anteriores tr azas r epr esentan un reto para el pronosticador por su c omplejidad, Star Wars por los complicados efectos de cámar a, la c arrera de for mula 1 por que. son var ios objetos 43.