• No se han encontrado resultados

Modelado de Juegos Diferenciales Lineales Utilizando Redes Neuronales -Edición Única

N/A
N/A
Protected

Academic year: 2017

Share "Modelado de Juegos Diferenciales Lineales Utilizando Redes Neuronales -Edición Única"

Copied!
120
0
0

Texto completo

(1)

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY

PRESENTE.-Por medio de la presente hago constar que soy autor y titular de la obra denominada

, en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución, distribución pública y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO, dentro del círculo de la comunidad del Tecnológico de Monterrey.

El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

(2)

Modelado de Juegos Diferenciales Lineales Utilizando Redes

Neuronales -Edición Única

Title Modelado de Juegos Diferenciales Lineales Utilizando Redes Neuronales -Edición Única

Authors Ernesto Manuel Anaya Muedano Affiliation ITESM-Campus Estado de México Issue Date 2007-07-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 06:12:20

(3)

MODELADO DE JUEGOS DIFERENCIALES LINEALES

UTILIZANDO REDES NEURONALES

TESIS QUE PARA OPTAR EL GRADO DE MAESTRO EN CIENCIAS DE LA INGENERÍA PRESENTA

ERNESTO MANUEL ANAYA MUEDANO

Director: DR. DAISHI A. MURANO LABASTIDA

Comité de Tesis:

DR. VIRGILIO VÁSQUES LÓPEZ

DR. JESÚS ULISES LICEAGA CASTRO

MC. GUILLERMO SANDOVAL BENITEZ

(4)

A mis padres y hermanos, por su apoyo durante mis estudios...

A Daishi, por su apoyo, amistad y guía durante estos años...

A todos mis amigos y profesores por sus enseñanzas y apoyo durante mi carrera

(5)

Cuando existe una interacción entre diferentes sistemas, en ocasiones su

com-portamiento puede verse afectado en su dinámica y en los objetivos que persiguen.

Estos sistemas pueden pertenecer a campos tales como la económica, la política, las

matemáticas, la mecánica, la aeronáutica, etc. El desarrollo de controladores para este

tipo de sistemas, con el n de obtener un comportamiento deseado, ha tenido un avance

notorio en los últimos años, pero éste ha estado basado en el conocimiento total del

modelo matemático que describe a dichos sistemas. El problema identi cado es que

en la mayoría de los casos no se tiene un modelo matemático completo o se carece del

mismo, lo que hace que la tarea de diseño de los controladores sea muy difícil. Este

proyecto de tesis muestra el desarrollo llevado a cabo para obtener el modelo de una

clase de juegos diferenciales lineales mediante el uso de una red neuronal diferencial

y el diseño de un algoritmo de aprendizaje para esta red. Las redes neuronales son

una herramienta que han probado ser efectivas en la identi cación de sistemas cuyo

(6)

When different systems interact with each other, sometimes their behavior may

be affected in their dynamics and the objectives they pursue. Such systems may

rep-resent models in elds such as economics, politics, mathematics, mechanics,

aero-nautics, etc. Development of controllers for such types of systems in order to obtain

a desired performance, have had a notorious advance during the last few years, but

such developments have been based in the total knowledge of the mathematical model

which describes such systems. A major problem is that in most cases a complete

mathematical model is not available or there is no mathematical model available at all,

which makes the design of controllers a very dif cult task. This document shows the

development to obtain the model of a class of linear differential games by means of a

differential neural network and the design of a learning algorithm for this net. Neural

networks are tools which have proven to be effective in obtaining the model of systems

(7)

1 ANTECEDENTES.

. . .

1

1.1 REDES NEURONALES. . . 2

1.1.1 REDES NEURONALES DINÁMICAS. . . 7

1.1.2 IDENTIFICACIÓN DE SISTEMAS LINEALES. . . 9

1.2 TEORÍA DE JUEGOS DINÁMICOS NO-COOPERATIVOS. . . 11

1.2.1 JUEGOS DIFERENCIALES. . . 14

2 PLANTEAMIENTO DEL PROBLEMA.

. . . .

16

2.1 ESTADO DEL ARTE. . . 17

2.2 JUSTIFICACIÓN. . . 19

2.3 OBJETIVO GENERAL. . . 20

2.4 OBJETIVOS ESPECÍFICOS. . . 21

2.5 ALCANCES. . . 21

3 MODELADO Y OBTENCIÓN DEL ALGORITMO DE

APRENDIZAJE.

. . . .

22

3.1 DESCRIPCIÓN DE LA RED NEURONAL. . . 23

3.2 CONDICIONES DE DISEÑO. . . 28

(8)

4.1 JUEGO DIFERENCIAL CON DOS JUGADORES. . . 46

4.2 JUEGO DIFERENCIAL CON TRES JUGADORES. . . 52

4.3 ANÁLISIS EN FRECUENCIA: JUEGO DIFERENCIAL CON DOS JUGADORES. . . 58

4.4 INTERACCIÓN ENTRE LOS JUGADORES: JUEGO DIFERENCIAL CON 3 JUGADORES. . . 68

4.5 ANÁLISIS DE RESULTADOS. . . 74

5 CONCLUSIONES.

. . . .

76

5.1 TRABAJO FUTURO . . . 77

REFERENCIAS.

. . .

79

A CONSTRUCCIÓN DE LAS REDES NEURONALES

DIFERENCIALES.

. . . .

81

A.1 Red Neuronal Diferencial: 2 Jugadores . . . 81

(9)

Figura 1.1 Neurona Biológica . . . 3

Figura 1.2 Elementos Básicos de una Neurona Arti cial . . . 6

Figura 1.3 Red Neuronal Dinámica (discreta). . . 8

Figura 1.4 Estructura General de una Red Neuronal Diferencial . . . 11

Figura 3.1 Aprendizaje y Error de Modelado . . . 26

Figura 4.1 Estados del Juego diferencial de 2 Jugadores (Simulación Completa -80s) . . . 48

Figura 4.2 Estados Modelados por la Red Neuronal - 2 Jugadores (Simulación Completa - 80s) . . . 48

Figura 4.3 Estados del Juego Diferencial de 2 Jugadores (Final de la Simulación -últimos 10s) . . . 49

Figura 4.4 Estados Modelados por la Red Neuronal - 2 Jugadores (Final de la Simulación - últimos 10s) . . . 50

Figura 4.5 Error entre Estados del Juego Diferencial y Estados Estimados - 2 Jugadores (Simulación Completa - 80s). . . 51

Figura 4.6 Error Medio Cuadrático - 2 Jugadores (Final de la Simulación - últimos 10s) . . . 51

Figura 4.7 Estados del Juego Diferencial de 3 Jugadores (Simulación Completa -80s) . . . 54

Figura 4.8 Estados Modelados por la Red Neuronal - 3 Jugadores (Simulación Completa - 80s) . . . 55

Figura 4.9 Estados del Juego Diferencial de 3 Jugadores (Final de la Simulación -últimos 10s) . . . 56

(10)

Figura 4.12 Error Medio Cuadrático - 3 Jugadores (Final de la Simulación - últimos 10s) . . . 58

Figura 4.13 Estados del Juego Diferencial de 2 Jugadores - f=0.01rad/s (Simulación Completa - 5,000s) . . . 62

Figura 4.14 Estados Modelados por la Red Neuronal de 2 Jugadores - f=0.01rad/s (Simulación Completa - 5,000s) . . . 62

Figura 4.15 Error Medio Cuadrático - 2 Jugadores - f=0.01rad/s (Simulación Completa - 5,000s) . . . 63

Figura 4.16 Estados del Juego Diferencial de 2 Jugadores - f=1rad/s (Final de la Simulación - últimos 100s) . . . 63

Figura 4.17 Estados Modelados por la Red Neuronal de 2 Jugadores - f=1rad/s (Final de la Simulación - últimos 100s) . . . 64

Figura 4.18 Error Medio Cuadrático - 2 Jugadores - f=1rad/s (Simulación Completa - 5,000s) . . . 64

Figura 4.19 Estados del Juego Diferencial de 2 Jugadores - f=1rad/s (Final de la Segunda Simulación - últimos 50s) . . . 66

Figura 4.20 Estados Modelados por la Red Neuronal de 2 Jugadores - f=1rad/s (Final de la Segunda Simulación - últimos 50s) . . . 67

Figura 4.21 Error Medio Cuadrático - 2 Jugadores - f=1rad/s (Segunda Simulación Completa - 5,000s) . . . 67

Figura 4.22 Estados del Juego Diferencial de 3 Jugadores con Interacción

(Simulación Completa - 100s). . . 70

Figura 4.23 Estados Modelados por la Red Neuronal - 3 Jugadores con Interacción (Simulación Completa - 100s). . . 71

Figura 4.24 Estados del Juego Diferencial de 3 Jugadores con Interacción (Final de la Simulación - últimos 10s) . . . 72

(11)

Figura 4.27 Error Medio Cuadrático - 3 Jugadores con Interacción (Simulación Completa - 100s) . . . 73

Figura 5.1 Sistema Real - Juego Diferencial de 2 Jugadores . . . 82

Figura 5.2 Subsistema de Sistema Real - Juego Diferencial de 2 Jugadores . . . . 82

Figura 5.3 Programa para Sistema Real - Juego Diferencial de 2 Jugadores . . . 83

Figura 5.4 Modelado de Estados de la Red Neuronal Diferencial - 2 Jugadores 83

Figura 5.5 Subsistema para Sigmoidales de Modelado de Estados - 2 Jugadores 84

Figura 5.6 Subsistema para Aprendizaje de Pesos Sinápticos V1- 2 Jugadores 85

Figura 5.7 Programa para Aprendizaje de Pesos Sinápticos V1 - 2 Jugadores . . 85

Figura 5.8 Subsistema para Aprendizaje de Pesos Sinápticos W1- 2 Jugadores 86

Figura 5.9 Programa para Aprendizaje de Pesos Sinápticos W1- 2 Jugadores . 86

Figura 5.10 Modelado de Dinámica de Jugador 1 - 2 Jugadores . . . 87

Figura 5.11 Subsistema para Sigmoidales de Jugador 1 - 2 Jugadores . . . 87

Figura 5.12 Subsistema de Aprendizaje de Pesos Sinápticos V2 para Jugador 1 - 2

Jugadores . . . 88

Figura 5.13 Programa para Aprendizaje de Pesos Sinápticos V2 para Jugador 1 - 2

Jugadores . . . 88

Figura 5.14 Subsistema para Aprendizaje de Pesos Sinápticos W2para Jugador 1

-2 Jugadores . . . 89

Figura 5.15 Programa para Aprendizaje de Pesos Sinápticos W2para Jugador 1 - 2

Jugadores . . . 89

Figura 5.16 Subsistema para Cálculo de Estados Estimados de la Red Neuronal Diferencial - 2 Jugadores . . . 90

(12)

Figura 5.19 Subsistema para Error de Modelado de los Estados - 2 Jugadores . . 92

Figura 5.20 Programa para Error Medio Cuadrado - 2 Jugadores . . . 92

Figura 5.21 Red Neuronal Diferencial para el Modelado de un Juego Diferencial con 2 Jugadores . . . 93

Figura 5.22 Sistema Real - Juego Diferencial de 3 Jugadores . . . 94

Figura 5.23 Subsistema de Sistema Real - Juego Diferencial de 3 Jugadores . . . . 95

Figura 5.24 Programa para Sistema Real - Juego Diferencial de 3 Jugadores . . . 95

Figura 5.25 Modelado de Estados de la Red Neuronal Diferencial - 3 Jugadores 96

Figura 5.26 Subsistema para Sigmoidales de Modelado de Estados - 3 Jugadores 97

Figura 5.27 Subsistema para Aprendizaje de Pesos Sinápticos V1- 3 Jugadores 97

Figura 5.28 Programa para Aprendizaje de Pesos Sinápticos V1 - 3 Jugadores . . 98

Figura 5.29 Subsistema para Aprendizaje de Pesos Sinápticos W1- 3 Jugadores 98

Figura 5.30 Programa para Aprendizaje de Pesos Sinápticos W1- 3 Jugadores . 99

Figura 5.31 Modelado de Dinámica de Jugador 1 - 3 Jugadores . . . 99

Figura 5.32 Subsistema para Sigmoidales de Modelado de Estados - 3

Jugadores . . . 100

Figura 5.33 Subsistema de Aprendizaje de Pesos Sinápticos V2 para Jugador 1 - 3

Jugadores . . . 100

Figura 5.34 Programa para Aprendizaje de Pesos Sinápticos V2 para Jugador 1 - 3

Jugadores . . . 101

Figura 5.35 Subsistema para Aprendizaje de Pesos Sinápticos W2para Jugador 1

-3 Jugadores . . . 101

Figura 5.36 Programa para Aprendizaje de Pesos Sinápticos W2para Jugador 1 - 3

(13)

Figura 5.38 Programa para Estados Estimados de la Red Neuronal Diferencial - 3 Jugadores . . . 103

Figura 5.39 Error de Modelado de los Estados - 3 Jugadores . . . 104

Figura 5.40 Subsistema para Error de Modelado de los Estados - 3 Jugadores . 104

Figura 5.41 Programa para Error Medio Cuadrado - 3 Jugadores . . . 105

(14)

CAPÍTULO 1

ANTECEDENTES.

Existen sistemas económicos, políticos, matemáticos, mecánicos,

aeronáuti-cos, etc., que poseen interconexiones con otros sistemas, en donde sus

compor-tamientos son inter-afectados tanto en sus dinámicas como en los objetivos que

per-siguen. El desarrollo de controladores para llevar estos sistemas a un desempeño

óptimo han tenido un avance notorio en los últimos años, el problema es que se han

basado en el conocimiento total del modelo matemático que describe a dichos

sis-temas. En la mayoría de los casos no se tiene un modelo satisfactorio, o incluso no

se tiene un modelo, lo que genera un problema para el desarrollo de controladores.

Sin embargo, existe una herramienta, las redes neuronales, que proveen una efectiva

metodología para la obtención de modelos de sistemas en los cuales se desconoce

parte o la totalidad del modelo matemático.

Por otro lado, la teoría de juegos es una ciencia que permite modelar sistemas

de varias personas o jugadores, en donde se utiliza la toma de decisiones de éstos

para que interactúen entre ellos. Cada jugador persigue su propio interés, el cual

puede estar en con icto con los demás. De esta manera, un juego es un sistema o

conjunto de sistemas en donde diversos jugadores interactúan mediante acciones o

controles, que afectan el comportamiento de los otros [9]. Las aplicaciones de la

(15)

ingeniería, aeronáutica, con ictos bélicos, etc. Para este tipo de sistemas se busca

un control para encontrar un estado de equilibrio del juego, minimizando pérdidas o

maximizando ganancias. De esta manera, es necesario conocer el modelo matemático

de los juegos, para poder de nir dicho estado de equilibrio, por lo que las redes

neuronales son una herramienta útil para obtener el modelo de diferentes tipos de

juegos.

1.1 REDES NEURONALES.

El cerebro humano trabaja de manera muy diferente a una computadora digital.

El cerebro es complejo, no lineal y es un sistema de procesamiento paralelo, con

la capacidad de organizar sus constituyentes estructurales (neuronas) para llevar a

cabo ciertas tareas. Desde que nacemos, el cerebro tiene la capacidad de generar

sus propias reglas a través de la “experiencia” que se obtiene con el tiempo. De

esta manera, su plasticidad permite al sistema nervioso en desarrollo a adaptarse al

ambiente que lo rodea.

Los sistemas biológicos son la base para el diseño de redes neuronales arti

-ciales. El cerebro se puede considerar como una red neuronal, que recibe

informa-ción de manera constante de los receptores, convirtiéndolos en impulsos eléctricos

que llevan información a la red. Finalmente, la red neuronal envía impulsos

eléc-tricos a los efectores, los cuales convierten dichos impulsos eléceléc-tricos para producir

(16)

Receptores Red Neuronal Efectores

Estímulo Respuesta

El sistema nervioso está formado por neuronas, y cada neurona posee una

membrana externa capaz de generar impulsos eléctricos y una sinapsis para

trans-ferir información de una neurona a otra. Cada neurona posee tres regiones:

Cuerpo de la neurona. Recolecta y procesa información proveniente de otras

neuronas.

Axioma. Provee la línea de transmisión mediante la cual se envía información

hacia otras neuronas.

Dendritas. Son extensiones que poseen varias ramas mediante las cuales se

recibe información.

Sinapsis.Uniones del axioma con una dendrita de otra neurona.

(17)

Cuando se produce un estímulo en una neurona, la información viaja a lo largo

del axioma hasta llegar a su n, pasando por una sinapsis, que constituye la unión

entre un axioma y una dendrita. En este punto de unión se transmite la

informa-ción de una neurona a otra mediante transmisores químicos. Cada neurona se puede

considerar como un sistema multi-entrada con una sola salida (multi-input,

single-output MISO), y la unión de un gran número de neuronas conforma una red neuronal

biológica.

Las redes neuronales arti ciales son sistemas que poseen la habilidad de

apren-der a medida que adquieren información de las entradas y salidas de un sistema.

Para llevar a cabo el aprendizaje no es necesario conocer el modelo matemático del

sistema analizado. Una red neuronal es un procesador masivamente distribuido de

forma paralela, compuesto de unidades simples de procesamiento, que son

propen-sas a almacenar conocimiento experimental y volverlo accesible para su uso. Las

redes neuronales surgieron como una analogía a las reacciones de las neuronas en el

cerebro humano, de esta manera son similares en dos aspectos principales:

1. El conocimiento se adquiere del ambiente a través de un proceso de aprendizaje.

2. Los pesos sinápticos, que representan la fuerza de conexión inter-neuronal, son

(18)

Un algoritmo de aprendizaje, es el procedimiento para llevar a cabo el proceso

de aprendizaje en las neuronas, su función es modi car los pesos sinápticos de la red

en una manera ordenada para lograr un objetivo deseado.

Una neurona, es una unidad de procesamiento fundamental para la operación

de una red neuronal. Cada neurona tiene cuatro elementos básicos:

1. Sinapsis o lazos de conexión. Se caracterizan por un peso o fuerza de

interconexión propia. Una señal en la entrada de una sinapsis j conectada a una

neurona k se multiplica por un peso sináptico . El peso sináptico se encuentra en

un rango que puede incluir valores positivos o negativos.

2. Sumador. Suma las señales de entrada, tiene la función de combinador lineal.

3. Función de activación. Se utiliza para limitar la amplitud de la salida de una

neurona . También es llamada función de límites, ya que limita el rango de

amplitud permisible de la señal de salida .

4. Bias. Tiene el efecto de incrementar o disminuir la entrada neta de la función de

activación, dependiendo si es positiva o negativa. Tiene el efecto de aplicar una

(19)

wkm

bk

xm

yk

uk

Función de Activación

Entradas

b Bias,

11

w

12

w

1

x

2

x

()⋅

ϕ Salida

[image:19.612.173.501.118.282.2]

Sumador

Figura 1.2: Elementos Básicos de una Neurona Arti cial

En donde x1; :::; xm son las señales de entrada, wk1; :::; wkm son los pesos

sinápticos de la neurona k, yk es la señal de salida de la neurona, bk es el bias y

'( )es la función de activación [7].

En términos matemáticos, una neurona k se describe con el siguiente par de

ecuaciones:

uk= m X

j=1

wkjxj (1.1)

yk ='(uk+bk) (1.2)

Las redes neuronales pueden desarrollarse con una o más capas de neuronas.

El perceptrón es la forma más simple de una red neuronal utilizada para reconocer

(20)

tipo de neurona se limita a hacer clasi cación de patrones en sólo dos casos. Si se

expande la capa de salida para tener más de una neurona, se puede ampliar el número

de clases para identi cación. Si se utiliza un mayor número de capas de neuronas se

tienen varios niveles de procesamiento [15].

1.1.1 REDES NEURONALES DINÁMICAS.

Las redes neuronales estáticas son utilizadas normalmente para codi car

informa-ción temporal utilizando un retraso en entradas y salidas. Pero este tipo de redes

requieren de grandes cantidades de memoria, lo que genera sistemas dinámicos de

bajo orden. Para eliminar este problema, se ha explorado el uso de redes neuronales

dinámicas o recurrentes [15]. Este tipo de redes utilizan al menos un lazo de

retroali-mentación, que utilizan elementos de retraso, en el caso de tiempo discreto denotado

porq 1

, tal que: u(k 1) = q 1

u(k), en dondek indica la k-ésima muestra en el

tiempo. El lazo de retroalimentación produce entonces un comportamiento dinámico

no-lineal debido a las funciones de activación no-lineales de las neuronas. Entonces,

además de las entradas de información a las neuronas, se añaden entradas que poseen

(21)

1 −

z

Neuronas

Operadores de retardo unitarios

1 −

z z−1

Figura 1.3: Red Neuronal Dinámica (discreta)

Las redes neuronales diferenciales, son el equivalente a las redes neuronales

dinámicas pero en tiempo continuo, éstas se diseñaron para modelar y controlar

sis-temas, y se encuentran representadas por una ecuación diferencial. El aprendizaje de

las redes neuronales se basa en la información que obtiene del entorno, de manera

que no es necesario conocer el modelo matemático para llevar a cabo una identi

-cación del sistema y controlarlo. El modelado mediante el uso de una red neuronal

diferencial se lleva a cabo en línea. Una vez que la red neuronal se ha sometido al

(22)

1.1.2 IDENTIFICACIÓN DE SISTEMAS LINEALES.

La identi cación de sistemas lineales es posible mediante redes neuronales

dinámi-cas o diferenciales. La estructura de dichas redes neuronales se basa en la conexión

de neuronas en paralelo, en donde el número de neuronas es seleccionado igual a la

dimensión de los estados del sistema lineal a identi car, que debe ser completamente

medible. Los pesos sinápticos se adaptan en línea para minimizar el error de

identi-cación. El método de análisis de estabilidad de Lyapunov (segundo método), es un

instrumento que además de establecer las condiciones de estabilidad de error de los

pesos sinápticos, es útil para generar un algoritmo de aprendizaje tanto para capas

ocultas como de salida de neuronas.

Las redes neuronales dinámicas utilizan al menos un lazo de retroalimentación

con el n de utilizar la información de los datos de la estructura del sistema. Además

es importante considerar que al utilizar un mayor número de capas ocultas, las

ca-pacidades de aproximación mejoran, así como el uso de funciones de activación

no-lineales para lograr una mejor aproximación de la dinámica de sistemas no-lineales.

La siguiente ecuación representa la estructura del modelo de una red neuronal

diferencial multicapa [15].

^

x=Ax^t+W1;t (V1;tx^t) +W2;t'(V2;tx^t)ut (1.3)

En donde:

^

(23)

ut2 <qes un vector que describe una entrada medible de acción de control,

W1;t2 <n k es la matriz de pesos sinápticos de salida,

W2;t2 <n r es la matriz de pesos sinápticos de salida,

V1;t 2 <m n es la matriz de los pesos sinápticos que describen las conexiones

de capas ocultas,

V2;t 2 <k n es la matriz de los pesos sinápticos que describen las conexiones

de capas ocultas,

A2 <n nes una matriz Hurwitz,

( )y'( )son funciones de activación sigmoidal

El caso más simple de la estructura de red neuronal diferencial es cuando

solamente contiene una capa de entrada y una de salida, es decir, no contiene

(24)

An A1 1 σ 2 σ m σ 1 φ 2 φ k φ ∑ ∑ ∑ ∑

j u X 1 u 1 x n x 11 , 1 v 11 , 1 w mm

v1, w1,mm

11 , 2 v 11 , 2 w kn

[image:24.612.171.477.119.409.2]

v2, ww,nk

Figura 1.4: Estructura General de una Red Neuronal Diferencial

1.2 TEORÍA DE JUEGOS DINÁMICOS

NO-COOPERATIVOS.

La teoría de juegos es una rama de las matemáticas aplicadas, que estudia sistemas

en los que múltiples jugadores o personas toman decisiones para tomar acciones con

el propósito de maximizar o minimizar alguna variable. Su objetivo principal es que

provee una forma de obtener modelos matemáticos de diferentes tipos de sistemas

(25)

impor-tante, y no-cooperativa si cada persona que participa busca sus propios intereses, que

pueden ser con ictivos con los intereses de las otras personas. Una situación de

con-icto incluye individuos que toman una decisión, y cada posible decisión lleva a un

resultado diferente, que puede ser valuado de manera distinta por cada individuo. Si

cada individuo valúa las posibles salidas de manera distinta, se genera entonces una

situación de con icto.

Un individuo, también llamado persona o jugador, no siempre tienen control

sobre la salida, en ocasiones existen incertidumbres que in uencian la salida de una

manera impredecible. La salida estará basada entonces por información que no se

obtiene de las decisiones de los individuos, se dice que esta información está bajo el

control de la “naturaleza”.

Existen dos tipos de teoría de juegos, estática y dinámica o diferencial. Cuando

se tiene un solo individuo no se puede hablar de teoría de juegos, sino de un sistema

convencional el cual se soluciona mediante programación matemática en casos

es-táticos o teoría de control en casos dinámicos. Cuando se cuenta con más de un

in-dividuo entonces ya se puede hablar de la teoría de juegos estática y teoría de juegos

dinámica o diferencial. La teoría de juegos diferenciales es aquella en la que la

evolu-ción de los estados de los individuos se describe mediante ecuaciones diferenciales.

Tanto la teoría de juegos estática como la teoría de juegos diferencial se utilizan

prin-cipalmente en situaciones de con ictos en campos tan variados como en economía y

(26)

con ictos de guerra, en general se utilizan en el desarrollo de conceptos para describir

y comprender situaciones de con ictos.

En la teoría de juegos existen acciones (controles) y estrategias (reglas de

de-cisión). Las estrategias de nen lo que se va a llevar a cabo, y son utilizadas por los

jugadores. Las consecuencias de las estrategias por parte de los individuos son las

acciones, es decir, las medidas que toman una vez que se conoce la salida de sus

de-cisiones. Las acciones se implementan una vez que se tiene información, en donde la

información puede ser de tipo estocástica o determinística. En el caso estocástico la

acción se basa en datos que no se conocen aún y que no están controlados por otros

jugadores, se determina por la naturaleza (incertidumbre), mientras que en el caso

determinístico la naturaleza no participa, la información es conocida [1].

La teoría de juegos incluye un proceso de toma de decisiones dinámica que

evoluciona en el tiempo, de manera continua o discreta, con más de un individuo

que toma decisiones, cada uno con su función de costo y con la posibilidad de

ac-ceder a información diferente. Un juego es dinámico cuando al menos un jugador

utiliza una estrategia que depende de acciones pasadas y la evolución del proceso

de decisiones, es decir, de la evolución de los estados, que se describe mediante una

ecuación diferencial. Los juegos diferenciales son entonces juegos dinámicos in

(27)

1.2.1 JUEGOS DIFERENCIALES.

Existe un tipo de juegos diferenciales denominados juegos dinámicos in nitos. En

este tipo de juegos los conjuntos de acciones de los individuos contienen un número

in nito de elementos o alternativas, y los jugadores adquieren información dinámica

mediante el proceso de toma de decisiones. Este tipo de juegos pueden ser de nidos

de manera discreta (dinámicos) o continua (diferenciales). Los conjuntos de acciones

de los jugadores no son nitos cuando se utiliza una forma extensa de juego, en lugar

de una estructura de árbol. En el caso de formular los juegos de manera extensa se

utilizan ecuaciones diferenciales (en tiempo continuo) para describir la evolución del

proceso de decisión.

Los juegos dinámicos in nitos en tiempo continuo, o juegos diferenciales,

poseen diversos caminos de acción, determinados por las soluciones de las

ecua-ciones diferenciales que los de nen, con el n de determinar el estado en el que se

encuentra el juego. De esta manera, la evolución de los estados del juego

diferen-cial se describen mediante una ecuación diferendiferen-cial y los individuos actúan en un

intervalo de tiempo.

De acuerdo a [1], unjuego diferencial cuantitativo de N-personas de duración

ja o pre-establecidacontiene los siguientes elementos.

(28)

2. Un intervalo de tiempo[0; T]especi cado a priori, denotando la duración de la

evolución del juego.

3. Un conjunto in nitoS0 con alguna estructura topológica, llamado espacio

de trayectorias del juego. Sus elementos se denotan de la manera

fx(t);0 t Tgy constituye elestado de trayectoriaspermisible del juego.

4. Un conjunto in nitoUi con alguna estructura topológica, de nida para cada

i2N y que es llamada elespacio de control (acción)dePi.

5. Una ecuación diferencial cuya solución describe latrayectoria de estadosdel

juego.

dx(t)

dt =f t; x(t); u

i(t); :::; uN(t) ; x(0) =x

0 (1.4)

Un juego diferencial no está completamente de nido a menos que se de nan

(29)

CAPÍTULO 2

PLANTEAMIENTO DEL PROBLEMA.

Las redes neuronales han probado ser una técnica exitosa para la identi cación

y control de una gran variedad de sistemas tanto lineales como no-lineales,

espe-cialmente en la ausencia de la información del sistema, incluso cuando no se tiene

información de éste [11]. Las redes neuronales pueden ser estáticas o dinámicas. Las

primeras han sido utilizadas para aproximar funciones operativas, en conjunto con

ecuaciones de modelo dinámicos. Pero aún cuando se han implementado de manera

exitosa, presentan algunas desventajas, tal como una taza de aprendizaje lenta y una

alta sensitividad a los datos de entrenamiento en la función de aproximación. A

diferencia de las redes neuronales estáticas, las redes neuronales dinámicas pueden

eliminar estas desventajas y han demostrado que pueden trabajar en la presencia de

sistemas dinámicos que no están modelados, ya que su estructura incluye

retroali-mentación [10].

El problema identi cado, y que se pretende resolver con este proyecto, es el

siguiente:

Aún cuando problemas especí cos de teoría de juegos dinámicos han sido

resueltos por diversos métodos, las redes neuronales diferenciales no han sido

uti-lizadas para este n. En este proyecto se pretende llevar a cabo el modelado de una

(30)

diferen-cial. Las redes neuronales presentan un método de solución e caz para este tipo de

problemas, ya que pueden ser utilizadas para la identi cación de sistemas aún en

ca-sos en los que no se cuenta con su modelo matemático, lo que implica que solamente

es necesario el conocimiento de las entradas y salidas de dichos sistemas para poder

modelarlos.

2.1 ESTADO DEL ARTE.

Existen algunas publicaciones que tratan la identi cación o control de procesos

dinámi-cos en donde se desconoce su modelo, mediante redes neuronales. Las redes

neu-ronales diferenciales han sido utilizadas para obtener modelos en aplicaciones de

identi cación de sistemas, mediante el método de identi cación de error para

entre-nar una red, con el n de predecir series caóticas de tiempo generadas por una función

logística y una desmodulación de señales FSK [6]. Otra aplicación de las redes

neu-ronales utilizan un eslabón funcional Chebyschev, con el n de reducir el tiempo

de cómputo que genera un algoritmo de retropropagación, y obtener un mayor

de-sempeño para el perceptrón muti-capa para la identi cación de un sistema dinámico,

incluso en casos en que se añade ruido al sistema [14]. Otro proyecto que utiliza

redes neuronales diferenciales, presenta una red neuronal dinámica que consiste de

una capa completamente conectada con retroalimentación, con el n de describir un

sistema dinámico en una representación de espacio de estados, además se desarrolló

(31)

mínima con la dinámica esencial capturada de la medición entrada-salida del sistema

desconocido. Los algoritmos de construcción integran métodos de determinación de

modelo mínimos, inicialización de parámetros y desempeño de optimización para

un trabajo sistemático de procesos de prueba-y-error en la selección de tamaños de

redes y parámetros [17]. Finalmente, hay dos proyectos que proponen el uso de

neuro observadores diferenciales asintóticos. El primero, propone un neuro

obser-vador diferencial asintótico para estimar los estados de un proceso estocástico

con-tinuo con conocimientoa priori de la estructura de la planta. Para el desarrollo de

esta red neuronal diferencial se utilizó un algoritmo de aprendizaje con dos partes,

una que se asemeja al esquema de retropropagación de error y otra proporcional al

error de salida. Para este proyecto además se aplicó un análisis estocástico de

Lya-punov, para probar la existencia de una cota superior para la estimación del error

medio cuadrático [11]. El segundo proyecto propone también un neuro observador

diferencial asintótico para estimar los estados de procesos estocásticos continuos,

pero ahora cuando no se tiene conocimiento a priori de la estructura de la planta

[10]. Sin embargo no se ha desarrollado una red neuronal para el modelado de juegos

diferenciales lineales.

En cuanto a la teoría de juegos se han desarrollado modelos para resolver

problemas especí cos tal como el problema de teoría de juegos diferencial de

evi-tar colisiones de aeronaves, basándose en el con icto de trá co aéreo, mediante

(32)

con-siderando que un vehículo que desea evitar la colisión como un “evasor” y uno

no-cooperativo adyacente actúa como “perseguidor”, extendiendo el problema de dos

aeronaves a un problema tridimensional [5]. Otro ejemplo es el de la teoría de

jue-gos diferencial propuesta para resolver problemas de la teoría de juego no-lineal

diferencial no-cooperativa y cooperativa de N-personas. En este proyecto el sistema

lineal estocástico se aproxima utilizando un modelo estocástico difuso, en donde un

controlador con observador difuso se propone para tratar un juego diferencial

no-cooperativo en el sentido de estrategias de equilibrio de Nash o juegos no-cooperativos

en el sentido de estrategias óptimas-Pareto [16]. Sin embargo, no se ha realizado un

modelado de juegos diferenciales mediante redes neuronales, en donde existe la

posi-bilidad de obtener un método generalizado para modelar diversos tipos de problemas

de teorías de juegos.

2.2 JUSTIFICACIÓN.

Las redes neuronales diferenciales son una herramienta mediante la cual es posible

la identi cación y control de sistemas lineales y no-lineales de los que se tiene un

conocimiento parcial o no se tiene conocimiento de su modelo matemático.

Con-siderando que los juegos diferenciales lineales, se modelan mediante ecuaciones

diferenciales que describen la evolución de los estados de un sistema con N

indi-viduos o jugadores, una red neuronal diferencial puede entonces modelar su

(33)

Con el desarrollo de una red neuronal diferencial se puede llevar a cabo el

modelado de sistemas de problemas de teoría de juegos diferenciales. El resultado

obtenido de esta red es el modelo matemático del juego diferencial modelado. La red

neuronal diferencial programada no solo modelaría un problema en especí co, sino

que tendría la capacidad de modelar una clase de sistemas, es decir, tendría la

capaci-dad de modelar varios problemas de juegos diferenciales, siempre que éstos cumplan

con las condiciones de diseño. Los sistemas modelados pueden ser tan variados como

sistemas mecánicos, aeronáuticos, matemáticos, económicos, políticos, económicos,

etc., como ha sido mencionado anteriormente, y de esta manera se obtiene un

de-sarrollo que no se ha realizado anteriormente y que posee una gran versatilidad en

solución de problemas de diversos campos.

Mediante el uso de una red neuronal diferencial, el aprendizaje se lleva a cabo

en línea, y mediante el entrenamiento de la red neuronal utilizando un algoritmo

de aprendizaje, la red neuronal se convierte en el modelo matemático, es decir el

modelo que de ne el comportamiento del sistema. Este documento presenta entonces

el desarrollo de un algoritmo de aprendizaje, o ley de aprendizaje para el diseño de

una red neuronal diferencial que modela una clase de juegos diferenciales.

2.3 OBJETIVO GENERAL.

Diseñar una red neuronal del tipo diferencial para el modelado una clase de juegos

(34)

2.4 OBJETIVOS ESPECÍFICOS.

Analizar y demostrar la estabilidad del error de modelado.

Obtener un algoritmo de aprendizaje adecuado para la red neuronal.

Generar un modelo matemático aplicado a un problema especí co de teoría de

juegos diferenciales.

2.5 ALCANCES.

Obtener una red neuronal programada en Matlab y Simulink.

Obtener el modelo matemático de algún problema especí co de teoría de

juegos mediante el uso de la red neuronal.

Escribir un artículo para ser publicado en un congreso internacional.

(35)

CAPÍTULO 3

MODELADO Y OBTENCIÓN DEL

ALGORITMO DE APRENDIZAJE.

Considerando que los estadosxde un juego diferencial son conocidos y sus

en-tradas y salidas son completamente medibles, se eligió una clase de juegos diferenciales

lineales invariantes en el tiempo para modelarlos mediante una red neuronal

diferen-cial. En primera instancia se eligió una red neuronal diferencial propuesta en [9], y

una clase de juegos diferenciales con una estructura similar a la red neuronal

diferen-cial mencionada. Una vez elegida la red neuronal, fue posible de nir las condiciones

con las que se debe cumplir para poder llevar a cabo el modelo de los juegos. Si el

juego diferencial que se desea modelar cumple con dichas condiciones, es posible

entonces llevar a cabo un análisis de estabilidad de Lyapunov (segundo método),

me-diante el cual se de ne la ley de aprendizaje que actualiza los pesos sinápticos de la

red, así como las condiciones de estabilidad para que el error tienda a cero. A

con-tinuación se muestra la de nición de la red neuronal a utilizar, las condiciones de

diseño y la ley de aprendizaje obtenida de este desarrollo.

La clase de juegos diferenciales que se utilizan en este documento, con el n

(36)

general por medio de la siguiente ecuación diferencial,

_

x=Ax+

N X

i=1

Biui (3.2)

en donde,

N es el número de jugadores, en dondei= 1;2;3:::; i2N

x2 <nes el vector de estados,

ui 2 <q es una entrada que describe la acción de control del jugadori(para el

desarrollo de este proyecto se consideraq= 1),i2N

A2 <n nes una matriz estable,

Bi 2 <n q son matrices de constantes de los jugadores,i2N

De esta manera se puede estudiar la interacción entre jugadores utilizando

una ecuación matemática, ya que la ecuación incluye la entrada de control de los

diferentes jugadores y el espacio de estados. Para este proyecto se considera que

to-dos los estato-dos son conocito-dos, y las acciones de control son completamente medibles,

mientras que las matricesAyB son desconocidas, y se determinan mediante el uso

de una red neuronal diferencial para obtener el modelo matemático completo.

3.1 DESCRIPCIÓN DE LA RED NEURONAL.

Del modelo de red neuronal diferencial propuesto en [9] es posible determinar las

(37)

propuesta en (3:1). Para poder llevar a cabo el modelado, es importante elegir una

clase de juegos diferenciales que cuenten con una estructura similar a la ecuación de

la red neuronal diferencial mencionada anteriormente.

^

x=W1 (V1x^) +

N X

i=1 Wi

2'i V2ix u^ i (3.1)

En donde,

^

x2 <nes el vector de estados estimados de la red neuronal,

W1 2 <n k es la matriz de pesos sinápticos para la capa de salida de los

estados,

Wi

2 2 <n mson las matrices de pesos sinápticos de la capa de salida para cada

uno de los jugadores,i2N

V1 2 <k n es la matriz de pesos sinápticos para la capa de entrada de los

estados,

Vi

2 2 <m n son las matrices de pesos sinápticos de la capa de entrada para

cada uno de los jugadores,i2N

(V1x^) 2 <k es el vector de evaluación de las entradas de las funciones

sig-moidales de los estados,

'i(Vi

2x^) 2 <m q son las matrices de evaluación de las entradas de las

fun-ciones sigmoidales de los jugadores,i2N

ui 2 <q es el control de entrada de los jugadores (para el desarrollo de este

(38)

Esta red neuronal diferencial cuenta con una sola capa de neuronas, con pesos

sinápticos a la entrada y la salida, es decir, una capa de pesos sinápticos ocultos y

una capa de pesos sinápticos a la salida. Para el diseño de esta red neuronal se utiliza

la siguiente forma para las funciones sigmoidales.

(z) ='(z) = 1

1 + exp ( az)

La estabilidad en este proyecto se dirige hacia el error cuadrático de modelado,

y para que la red neuronal lleve a cabo el modelado del sistema de juegos

diferen-ciales deseado, el error entre la salida del sistema real y la salida estimada de la red

neuronal para este proyecto, debe acercarse a cero. Entonces, es necesario demostrar

la estabilidad de error de modelado entre la red neuronal (valor estimado) y el sistema

de juegos (valor real o deseado).

De lo anterior es posible determinar una ley de aprendizaje, cuyo objetivo sea el

de minimizar el error de modelado. La ley de aprendizaje o algoritmo de aprendizaje

deberá incluir la minimización de error entre los estados realesxdel juego diferencial

(39)

Figura 3.1: Aprendizaje y Error de Modelado

Como se mostró en (3:2), es necesario veri car que la de nición de la red

neuronal diferencial utilizada cumpla con la forma general de esta clase de juegos

diferenciales. De esta manera se utiliza el error de modelado, expresado como =

^

x x;y considerando que _ = ^x x_, entoncesx^representa el modelo de red neuronal

diferencial yx_ el modelo ideal para el sistema real, cuya dinámica se representa como

sigue,

_

x=W1 (V1x) +

N X

i=1

W2i'i V i

2 x ui (3.3)

en donde,

x2 <nes el vector de estados ideales de la red neuronal,

W1 2 <n k es la matriz de pesos sinápticos iniciales para la capa de salida de

(40)

W2i 2 <n mson las matrices de pesos sinápticos iniciales de la capa de salida

para cada uno de los jugadores,i2N

V1 2 <k nes la matriz de pesos sinápticos iniciales para la capa de entrada de

los estados,

V2i 2 <m nson las matrices de pesos sinápticos iniciales de la capa de entrada

para cada uno de los jugadores,i2N

(V1x) 2 <k es el vector de evaluación de las entradas de las funciones

sig-moidales de los estados,

'i V i

2 x 2 <m q son los vectores de evaluación de las entradas de las

fun-ciones sigmoidales de los jugadores,i2N

ui 2 <q es el control de entrada de los jugadores (para el desarrollo de este

proyecto, se consideraq = 1),i2N

Se observa que(3:3)cumple con la forma general de la clase de juegos diferenciales

de(3:2), entonces esta red neuronal diferencial puede ser utilizada para el modelado

de la clase propuesta de juegos diferenciales. Para esto, se considera que W1, V1, W2iyV

i

2 representan matrices de pesos sinápticos iniciales debido a que no se tiene

conocimiento del modelo matemático, en especí co de las matricesAyBi; i2N, y

estos valores iniciales cambiarán cuando se someta a la red neuronal al entrenamiento

y se lleve a cabo el aprendizaje, para nalmente obtener el modelo matemático del

(41)

3.2 CONDICIONES DE DISEÑO.

Para de nir las condiciones de diseño de la red neuronal diferencial, se toma en

cuenta que las siguientes suposiciones se cumplen.

Suposición 1.Las funciones sigmoidales ( )y'( )son diferenciables y satisfacen

la condición de Lipschitz y la condición de sector, de tal manera que se cumple lo

siguiente,

~ := (V1x^) (V1x);^ := (V1x^) (V1x^) (3.4)

~

'i :='i V2ix^ '

i

V2ix ;'^

i

:='i V2ix^ '

i

V2ix ; i^ 2N

:= (V1x^); 'i :='i V2ix ; i^ 2N

(0) := 0; 'i(0) := 0; i2N

~

Wi =Wi Wi; V~ i

i =Vi V

i

i ; i2N

~

Wi =Wi Wi; V~ i

i =Vi V

i

i ; i2N

Dado a que las funciones sigmoidales ( ) y '( ) cumplen con la condición de

Lipschitz y la condición de sector, y son diferenciables, se concluye los siguiente de

acuerdo a[15].

^ = D V~1x^+

^

'iui =Di

'V~2ixu^ i+ i'ui; i2N

D =

z (z)jz=V1x^ Di

' = z' i(z)j

z=V2^x; i2N

(~ Aa )

>

1(~ Aa )

>

~

'iui > i

2 '~

iui > i

' u

(42)

ui 2 ui; i2N

jj jj21 l1

~

V1x^ 2

; l1 >0

i '

2 i 4

li

2 V~

i

2x^ 2

' ; li

2 >0; i2N

En donde,

2 <nes el vector de error

D 2 <k k es la matriz diagonal de las derivadas de las funciones sigmoidales de

los estados

Di

' 2 <m m es la matriz diagonal de las derivadas de las funciones sigmoidales de

los jugadores,i2N

( )2 <kes el vector de funciones sigmoidales para las neuronas que modelan los

estados

'i( )2 <m q es el vector de funciones sigmoidales para las neuronas de cada uno

de los jugadores (para el desarrollo de este proyecto, se consideraq =1),i2N

Suposición 2.Se utilizan acciones de control acotadasfuig(jjuijj2 ui < constante,

i2N), para cada uno de los jugadores[15].

Suposición 3. Existen matrices 1, 2, , i',Qa,Aa, i3, i4,i2 N y constantes l1; li2, tal que proveen una solución positiva P = P

>

> 0 a la siguiente ecuación

algebraica de Riccati:

RIC :=P A+A>

(43)

en donde,

R : =W1 1 1 + 1 2 W > 1 + N X i=1 h W i 2 i 1 3 + i 1 4 W i> 2 i

; i2N

Q : = +

N X

i=1

i 'u

i +Q

a; i2N

A : =W1Aa

1; 2 2 <k k son matrices diagonales positivas,

i

3; i4 2 <m m son matrices diagonales positivas,i2N

2 <n nes una matriz diagonal positiva,

i

' 2 <n n son matrices diagonales positivas,i2N

Qa 2 <n n es una matriz positiva de nida,

l1; li2 2 <son constantes positivas,

Aa 2 <k nes una matriz tal queAes estable,

ui 2 <es una constante positiva,i2N

3.3 OBTENCIÓN DE LA LEY DE APRENDIZAJE Y

ANÁLISIS DE ESTABILIDAD DEL ERROR DE

MODELADO.

El propósito nal es el de de nir el algoritmo de aprendizaje de la red neuronal

diferencial a partir de las condiciones de estabilidad. Para llevar a cabo esto es

nece-sario obtener una expresión matemática de los pesos sinápticosW1,V1,W2i yV2i, en

(44)

Pro-poniendo una función candidato de LyapunovV (x), es posible determinar las

condi-ciones que hacen que la función candidato sea positiva de nida, así como su derivada

sea negativa de nida

h

V (x) 0; _V (x)<0i, para garantizar estabilidad. Para

deter-minar el algoritmo de aprendizaje de la red neuronal se utiliza entonces el modelo de

red neuronal diferencial de(3:1)y el error de modelado mencionado anteriormente

para de nir la siguiente función candidato de Lyapunov, de acuerdo a [15],

V ( ) = TP + 1

2tr W~

T

1K 1

1 W~1 +

1

2tr V~

T

1K 1 2 V~1

+1

2

N X

i=1

tr W~

iT 2 K

1i

3 W~2i +

1 2

N X

i=1

tr V~

iT 2 K

1i

4 V~2i ; i 2N (3.5)

en donde

= ^x x;2 <n, es vector de error,

K1; K2; K3i; K4i 2 <son constantes positivas,i2N

P 2 <n n es la matriz positiva de solución de la ecuación de Riccati

~

W1 2 <n k es la matriz de actualización de pesos sinápticos para la capa de salida

de los estados,

~

Wi

2 2 <n m son las matrices de actualización de de pesos sinápticos de la capa de

salida para cada uno de los jugadores,i2N

~

V1 2 <k n es la matriz de actualización de pesos sinápticos para la capa de entrada

(45)

~

Vi

2 2 <m n son las matrices de actualización de pesos sinápticos de la capa de

entrada para cada uno de los jugadores,i2N

trf g representa la traza, que en álgebra lineal es la suma de los elementos de la

diagonal principal de una matriz cuadrada [4],

Con , que representa el error, se puede demostrar la estabilidad, considerando para

este proyecto que es estable si tiende a cero. Para llevar a cabo el análisis, se toma la

derivada de la función candidato de Lyapunov.

_

V ( ) = TP _ + _TP +tr

( ~ W T 1K 1

1 W~1+ ~W1TK 1 1 W~1

) +tr ( ~ V T 1K 1

2 V~1+ ~V1TK 1 2 V~1

) + N X i=1 " tr ( ~ W iT 2 K 1i 3 W~

i

2+ ~W

iT 2 K

1i 3 W~

i 2 )# + N X i=1 " tr ( ~ V iT 2 K 1i

4 V~2i+ ~Vi T 2 K

1i 4 V~

i

2

)#

De acuerdo a [4], se tiene la siguiente identidad: x>

Q@x = x>

Q@x > = @x>

Qx,

(46)

_

V ( ) = TP _ + TP _ +tr

( ~ W T 1K 1

1 W~1+ ~W

T

1K 1 1 W~1

) +tr ( ~ V T 1K 1

2 V~1+ ~V

T

1K 1 2 V~1

) + N X i=1 " tr ( ~ W iT 2 K 1i 3 W~

i

2+ ~W

iT

2 K 1i 3 W~

i 2 )# + N X i=1 " tr ( ~ V iT 2 K 1i 4 V~

i

2 + ~V

iT

2 K 1i 4 V~

i

2

)#

Finalmente, se obtiene la función que representa a la función candidato de Lyapunov.

_

V ( ) = 2 TP _ +tr

( ~ W T 1K 1 1 W~1

) +tr ( ~ V T 1K 1 2 V~1

) + N X i=1 " tr ( ~ W iT 2 K 1i 3 W~

i 2 )# + N X i=1 " tr ( ~ V iT 2 K 1i 4 V~

i

2

)#

; i2N (3.6)

A continuación se muestra el resultado obtenido acerca del modelado de

jue-gos diferenciales, del cual se deriva la ley de aprendizaje para actualización de

pe-sos sinápticos de la red neuronal. La ley de aprendizaje es un factor importante en

cualquier proceso de modelado de sistemas dinámicos, ya que con la actualización

de sus pesos, se garantiza que la red neuronal logre un modelado satisfactorio del

sistema real. El análisis de actualización de pesos está basado en el análisis de

es-tabilidad de Lyapunov (segundo método), mediante el cual se obtiene dicha ley de

actualización de pesos o algoritmo de aprendizaje, así como los parámetros que

(47)

Teorema 1. Sea el juego diferencial lineal invariante en el tiempo dado por(3:2),

el cual será modelado por la red neuronal diferencial dada por (3:1), si las

suposi-ciones 1, 2 y 3 se cumplen, los pesos sinápticos de la red neuronal se ajustan de

acuerdo a la siguiente ley de aprendizaje.

~

W1 = K1 2P

> > (V1x^)

~

V1 = K2

h

2D>W1>P

> ^

x>+l1V~1x^x^

> >i

~

W2 = K3i

h

2P>

ui>

'i>

Vi

2x^

i

; i 2N

~

V2 = K4i

h

2Di>

' W i>

2 P

>

ui>

^

x>

+li

2V~

i

2x^x^

> i>

' u i

; i2N

Y de esto, es posible obtener el siguiente error cuadrático de estimación de estados,

que indica que el error de modelado tiende a cero.

>

Qa !

t!1 0

Prueba. La prueba del teorema anterior se lleva a cabo mediante el análisis de

es-tabilidad del error de estimación de estados, a partir del cual se obtiene la ley de

aprendizaje para la red neuronal.

De acuerdo a la derivada de la función candidato de Lyapunov en (3:6), se trabaja

(48)

obtiene,

_ = ^x x_ =

"

W1 (V1x^) +

N X

i=1 Wi

2'

i Vi

2x u^

i #

"

W1 (V1x) +

N X

i=1 W2i'

i V i 2 x u

i #

_ =W1 (V1x^) W1 (V1x) +

N X

i=1 Wi

2'

i Vi

2x u^

i

N X

i=1

W2i'i V i

2 x ui (3.7)

Para analizar las ecuaciones anteriores se utilizarán las siguientes desigualdades.

X>

Y +Y>

X X> 1

X+Y>

Y

2X>

Y X> 1

X+Y>

Y

las cuales son válida para todo X; Y 2 Rm n y cualquier0 < = >

2 Rm m

[15], y

A>

A tr A>

A

Analizando la primera parte de(3:6)se obtiene,

2 TP _ = 2 TP [W1 (V1x^) W1 (V1x)] +

2 TP

" N X

i=1 Wi

2'i V2ix u^ i

N X

i=1

W2i'i V i 2 x ui

#

(3.8)

(49)

a) Tomando2 TP _ [W

1 (V1x^) W1 (V1x)], y sumando y restando2 TP W1 (V1x^)

2 TP [W

1 (V1x^) W1 (V1x)] =

2 TP [W1 (V1x^) W1 (V1x) +W1 (V1x^) W1 (V1x^)] =

2 TP [W

1 (V1x^) W1 (V1x)] + 2 TP [W1 (V1x^) W1 (V1x^)] =

2 TP [W

1 ( (V1x^) (V1x))] + 2

TPhW~

1 (V1x^)

i

ahora se suma y resta (V1x^)al término( (V1x^) (V1x))y se obtiene,

2 TP [W

1 ( (V1x^) (V1x) + (V1x^) (V1x^))] + 2 TP

h

~

W1 (V1x^)

i

=

2 TP [W

1~ +W1^] + 2

TP hW~

1 (V1x^)

i

=

2 TP W1~ + 2

T

P W1^ + 2

T

PW~1 (V1x^)

sumando y restando2 TP _W

1Aa(^x x) = 2 TP _W1Aa , en dondeAaes una

matriz tal queW1Aaes estable, considerandoA=W1Aa,

2 TP W

1~ + 2

TP W

1^ + 2

TPW~

1 (V1x^)

+2 TP W1Aa 2 TP W1Aa

= 2 TPW~

1 (V1x^) + 2 TP W1^

+2 TP W

1 (~ Aa ) + 2 TP W1Aa (3.9)

trabajando por separado con cada uno de los términos se obtiene:

1)2 TPW~

1 (V1x^)

2)2 TP W

1^ = 2 TP W1 D V~1x^+ =

2 TP W

(50)

2 TP W

1D V~1x^+ TP W1 1 1 W > 1 P > + > 1

2 TP W

1D V~1x^+ TP W1 1 1 W

>

1 P

>

+jj jj21

2 TP W

1D V~1x^+ TP W1 1 1 W

>

1 P

>

+l1 V~1x^

2

2 TP W

1D V~1x^+ TP W1 1 1 W

>

1 P

>

+l1x^

>~

V>

1 V~1x^

2 TP W

1D V~1x^+ TP W1 1 1 W

>

1 P

>

+l1x^x^

>~

V>

1 V~1

3)2 TP W

1 (~ Aa ) TP W1 1 2 W > 1 P > +

(~ Aa )

>

2(~ Aa ) TP W1 1 2 W

>

1 P

>

+jj~ Aa jj

2

2

TP W

1 1 2 W > 1 P > + >

4)2 TP W

1A = T2P A T P A+A

>

P

De(3:9)se obtiene entonces que:

2 TPW~

1 (V1x^) + 2 TP W1^ + 2

TP W

1 (~ Aa ) +

2 TP W1Aa 2 TPW~1 (V1x^) + 2 TP W1D V~1x^+

TP W

1 1 1 W > 1 P >

+l1x^x^

>~

V>

1 V~1+

TP W

1 1 2 W > 1 P > + >

+ T P A+A>

P

T h

P A+A>P +P W1 1 1 +

1 2 W

>

1 P +

i

+

2 TPW~

1 (V1x^) + 2 TP W1D V~1x^+ +l1x^x^

>~

V>

(51)

b) Tomando ahora2 TP PN i=1

Wi

2'i(V2ix^)ui

N P

i=1

W2i'i V i

2 x ui , y analizándolo

de la misma manera que (a), sumando y restando2 TP W i

2 'i(V2ix^)ui;

2 TP

" N X

i=1 W2i'

i

V2ix u^

i N X

i=1 W2i'

i

V2ix u

i # = N X i=1 h

2 TP Wi

2'

i Vi

2x u^

i 2 TP W i 2 '

i V i 2 x u

ii=

N X

i=1

n

2 TP hWi

2'

i Vi

2x u^

i W i

2 '

i V i 2 x u

i+W i 2 '

i Vi

2x u^

i

W2i'

i Vi

2x u^

iio= N X

i=1

n

2 T hP hWi

2 W i 2

i

'i Vi

2x u^

i+

W2i

h

'i Vi

2x u^

i 'i V i 2 x u

iiio=

N X

i=1

n

2 TP hW~i

2'

i Vi

2x u^

i+W i 2

h

'i Vi

2x u^

i 'i V i 2 x u

iiio

ahora se suma y resta'i(V

2x^)ui al término

h

'i(Vi

2x^)ui 'i V i 2 x ui

i

y se

ob-tiene,

N X

i=1

n

2 TP hW~2i'

i

V2ix u^

i

+W2i

h

'i V2ix u^

i

'i V2ix u

iiio = N X i=1 n

2 TP hW~2i'

i

V2ix u^

i

+Wh2i'

i

V2ix u^

i

'i V2ix u

i

+'i(V

2x^)ui 'i(V2x^)ui =

N X

i=1

n

2 TP hW~i

2'

i Vi

2x u^

i +W i 2 '

i Vi

2x^ '

i(V

2x^) u

i+

'i(V

2x^) '

i V i 2 x u

iiio=

N X

i=1

n

2 TP hW~i

2'

i Vi

2x u^

i +W i 2 '^

iui+ ~'iui io=

N X

i=1

n

2 TP hW~i

2'

i Vi

2x u^

i +W i 2 '^

iui+W i 2 '~

(52)

trabajando por separado con cada uno de los términos se obtiene:

1)

N P

i=1

2 TPW~i

2'i(V2ix^)ui

2)

N P

i=1

2 TP W i

2 '~iui

N P

i=1

TP W i 2 1 3 W i> 2 P > + N P i=1 ~

'iui 2

3

N P

i=1

TP W i 2 1 3 W i> 2 P > + N P i=1 ~

'i 2

3ku

ik2

3

N P

i=1

TP W i 2 1 3 W i> 2 P > + N P i=1 > i

' ui

3)

N P

i=1

2 TP W i

2 '^

i

ui = PN i=1

2 TP W i

2

h

Di

'V~2ixu^ i+ i'ui i = N P i=1 h

2 TP W i

2 D'iV~2ixu^ i + 2 TP W i 2 i'ui

i

N P

i=1

h

2 TP W i

2 D'iV~2ixu^ i + TP W i 2 1 4 W i> 2 P > + i

'ui

2 4 i N P i=1 h

2 TP W i

2 D'iV~2ixu^ i + TP W i 2 1 4 W i> 2 P >

+li

2x^x^

>~

V>i

2 i'V~2iui

i

De(3:11)se obtiene entonces que:

N X

i=1

n

2 TP hW~2i'

i

V2ix u^

i

+W2i'^

i

ui+W2i'~

i

uiio

N X

i=1

n

2 TPW~i

2'

i Vi

2x u^

i+ TP W i 2 1i 3 W i> 2 P > + > i

' u+ 2 T

P W2iD

i 'V~

i

2xu^

i

+

TP W i 2 1i 4 W i> 2 P >

+l2x^x^

>~

Vi>

2 i'V~2iui

o

N X

i=1

n

T hP W i 2 1i 3 + 1i 4 W i>

2 P + i'u

i

+

2 TPW~i

2'

i Vi

2x u^

i+ 2 TP W i 2 D

i 'V~

i

2xu^

i+l

2x^x^

>~

Vi>

2

i 'V~

i

2u

(53)

Utilizando(3:10)y(3:12), y sustituyendo en(3:8),

2 TP _ = T hP A+A>

P +P W1 1 1 +

1 2 W

>

1 P +

i

+

2 TPW~1 (V1x^) + 2 TP W1D V~1x^+ +l1x^x^

>~

V>

1 V~1+

N X

i=1

h

T hP W i 2 1i 3 + 1i 4 W i>

2 P + i'u

i

+ 2 TPW~i

2'i V2ix u^ i+

2 TP W i

2 D

i 'V~

i

2xu^

i+l

2x^x^

>~

Vi>

2

i 'V~

i

2u

ii=

T "

P A+A>

P +P

" W1 1 1 + 1 2 W > 1 + N X i=1 h

W2i 1i 3 + 1i 4 W i> 2 i# P+

+ i'u

i

+ 2 TPW~1 (V1x^) + 2 TP W1D V~1x^+ +l1x^x^

>~

V1> V~1+

N X

i=1

h

2 TPW~i

2'i V2ix u^ i+ 2 TP W i

2 Di'V~2ixu^ i+l2x^x^

>~

Vi>

2 i'V~2iui

i

Sumando y restando ahora >

Qa , en donde Qa es una matriz positiva de nida,

Qa >0;

2 TP _ = T P A+A>

P +P RP +Q + 2 TPW~

1 (V1x^) +

2 TP W

1D V~1x^+ +l1x^x^

>~

V>

1 V~1+

" N X

i=1

2 TPW~2i'

i

V2ix u^

i

+ 2 TP W2iD

i 'V~

i

2xu^

i

+

l2x^x^

>~

Vi>

2

i 'V~

i

2u

ii >

Qa (3.13)

En donde:

A = W1A R = W1

1 1 + 1 2 W > 1 + N X i=1 h

W2i 1i 3 + 1i 4 W i> 2 P i

; i 2N

Q = +

N X

i=1

i 'u

i+Q

(54)

Sustituyendo ahora(3:13)en(3:6),

_

V ( ) T P A+A>

P +P RP +Q + 2 TPW~

1 (V1x^) +

2 TP W1D V~1x^+l1x^x^

>~

V1> V~1+

N X

i=1

h

2 TPW~2i'

i

V2ix u^

i

+

2 TP W2iD

i 'V~

i

2xu^

i

+l2x^x^

>~

Vi>

2

i 'V~

i

2u

ii

>

Qa +tr n

~

WT

1 K 1 1 W~1

o

+trnV~T

1 K 1 2 V~1

o

+

N X

i=1

trnW~iT 2 K

1i 3 W~

i 2 o + N X i=1

trnV~iT 2 K

1i 4 V~

i

2

o

de donde se obtiene:

_

V ( ) T P A+A>

P +P RP +Q +tr

( ~ W T 1K 1

1 W~1+ 2 (V1x^) TPW~1

) + tr ( ~ V T 1K 1

2 V~1+ 2^x TP W1D V~1+l1x^x^

>~

V>

1 V~1

) + N X i=1 tr ( ~ W iT 2 K 1i 3 W~

i

2 + 2'

i Vi

2x u^

i TPW~i

2 ) + N X i=1 tr ( ~ V iT 2 K 1i 4 V~

i

2 + 2^xu

i T

P W2iD

i 'V~

i

2 +l2x^x^

>~

Vi>

2

i 'V~

i

2u

i )

>

Qa (3.14)

De esto se obtiene lo siguiente:

LW1 = ~W

T

1K 1

1 W~1+ 2 (V1x^) TPW~1

LV1 = ~V

T

1K 1

2 V~1+ 2^x TP W1D V~1+l1x^x^

>~

V>

1 V~1; i2N LW2 = ~W

iT

2 K 1i 3 W~

i

2 + 2'

i

V2ix u^

i T

PW~2i LV2 = ~V

iT

2 K 1i

4 V~2i+ 2^x TP W i

2 Di'V~2iui+l2x^x^

>~

Vi>

2 i'V~2iui; i 2N

Para obtener la ley de aprendizaje diferencial, se conoce que se necesitaV_ ( ) 0,

(55)

se cumplan:

LW1 =LV1 =LW2 =LV2 = 0

P A+A>

P +P RP +Q= 0

Entonces se tiene que:

_

V ( ) >

Qa (3.15)

Y comoQa>0, entonces se garantiza la estabilidad, considerando queV_ ( )

siem-pre es menor a cero.

Finalmente, para obtener la ley de aprendizaje se utilizan las expresionesLW1; LV1; LW2; LV2,

igualándolas a cero, de lo que se obtiene:

~

W

T

1K 1

1 W~1+ 2 (V1x^) TPW~1 = 0

~

W

T

1 = K1 2 (V1x^) TP

~

V

T

1K 1

2 V~1+ 2^x TP W1D V~1 +l1x^x^

>~

V>

1 V~1 = 0

~

V

T

1 = K2

h

2^x TP W1D +l1 x^x^

>~

V1>

i ~ W iT 2 K 1i 3 W~

i

2 + 2'

i Vi

2x u^

i TPW~i

2 = 0

~

W

iT

2 = K

i

3 2'

i

V2ix u^

i T

(56)

~

V

iT

2 K 1i 4 V~

i

2 + 2^x

TP W i 2 D

i 'V~

i

2u

i +l

2x^x^

>~

Vi>

2

i 'V~

i

2u= 0

~

V

iT

2 = K

i

4

h

2^xui TP W2iD

i

'+l2 i'x^x^

>~

V2i>u

ii

; i2N

De estas expresiones se obtienen entonces las expresiones de actualización de los

pesos de las neuronas en la red,

~

W1 = K1 2P

> >

(V1x^)

~

V1 = K2

h

2D>

W1>P

> ^

xT +l

1V~1x^x^

> >i

~

W

i

2 = K3i 2P

>

'i>

Vi

2x u^ i

>

; i2N

~

V

i

2 = K

i

4

h

2Di>

' W

i>

2 P

>

ui> ^

x>

+l2V~2ix^x^

>

ui i '

i

; i2N (3.16)

Y en donde la ecuación de Riccati queda como sigue,

P A+A>P +P RP +Q= 0 (3.17)

Finalmente, de(3:15), se obtiene lo siguiente,

_

V ( ) >Qa ; Qa >0

Integrando ambos lados la expresión anterior,

1

Z

0

_

V ( )

1

Z

0

>

Qa

Resolviendo la integral del lado izquierdo,

[V (1) V (0)]

(57)

1

Z

0

k k2Qa V (0) V (1)

ComoV (0)yV (1)son constantes, y

1

R

0

k k2Qa es una integral nita, menor a una constante, signi ca que el error disminuye hacia cero a medida que pasa el tiempo,

>

Qa ! 0parat <1, es decir, el error cuadrático tiende a cero para sistemas

lineales invariantes en el tiempo.

>

Qa !

t!1 0

De lo anterior se comprueba entonces que el modelo de la red neuronal diseñada es

estable, de acuerdo a la ley de aprendizaje propuesta(3:16), y que el error cuadrático

Figure

Figura 1.2: Elementos Básicos de una Neurona Arti�cial
Figura 1.4: Estructura General de una Red Neuronal Diferencial
Figura 5.3: Programa para Sistema Real - Juego Diferencial de 2 Jugadores
Figura 5.5: Subsistema para Sigmoidales de Modelado de Estados - 2 Jugadores
+7

Referencias

Documento similar

; el error medio en la localización respecto al rango de los nodos, % ; el error máximo y medio promediado en las 40 iteraciones, Max-Error y Media-Error; la desviación típica

La clasificación de Grundy 26 (Figura 3), ampliamente utilizada en nuestro medio 27 , divide a los FRCV en: FRCV causales, aquellos en los que existe evidencia de papel

Este gráfico evidencia el predominio de los proveedores de Kubota (Japón) y Zenon (Canadá). Sus tecnologías basadas en módulos de filtración sumergidos han sido un éxito

La figura 3 muestra sobre la estrategia promoción donde el promedio de respuesta para los medios que informa sobre la existencia de la institución educativa fue 4 que

La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De

Imparte docencia en el Grado en Historia del Arte (Universidad de Málaga) en las asignaturas: Poéticas del arte español de los siglos XX y XXI, Picasso y el arte español del

En la figura 21, se observa como con la inclusión de elementos como el azufre y el carbono en el sistema, la estabilidad de las fases de óxidos de hierro

Utilizando la configuración de la figura 3, diseñar un circuito para ensamblar en el laboratorio.. Para el diseño, tenga en cuenta los elementos disponibles en