• No se han encontrado resultados

Dinámicas poblacionales estocásticas

N/A
N/A
Protected

Academic year: 2020

Share "Dinámicas poblacionales estocásticas"

Copied!
58
0
0

Texto completo

(1)

1

PROYECTO DE FIN DE CARRERA

Dinámicas poblacionales estocásticas

Presentado a

La Universidad de los Andes

Facultad de ingeniería

Departamento de ingeniería eléctrica y electrónica

Desarrollado por:

Estudiante: Juan Diego Pico Sanabria

(2)

2

Agradecimientos

El autor agradece especialmente a su asesor, el ingeniero Nicanor Quijano Silva, PhD.,

quien fue un guía brillante en el desarrollo del trabajo y representó una gran fuente de

conocimiento y de crecimiento. Así mismo le agradece a la Universidad de los Andes; al

ingeniero German Obando M. Sc., el ingeniero Jorge Leonardo Gómez, y a Luis Carlos

Gaitán Riascos por las provechosas conversaciones y comentarios, sus aportes fueron

fundamentales para la satisfactoria consumación del presente trabajo.

(3)

3

Resumen ejecutivo

Stochastic Population Dynamics

Estudiante: Juan Diego Pico Sanabria Asesor: Nicanor Quijano Silva

O

BJETIVOS DEL PROYECTO DE GRADO

2.1. Objetivo general

Sintetizar métodos de solución de problemas estocásticos sobre dinámicas poblacionales y su posible aplicación a problemas de ingeniería.

2.2. Objetivos específicos

 Analizar el estado del arte de los sistemas estocásticos en dinámicas poblacionales.

 Utilizar la metodología de sistemas estocásticos en dinámicas poblacionales sobre un problema de asignación dinámica de recursos.

 Simular el comportamiento de la metodología desarrollada.

D

ESARROLLO

Se seleccionó como problema de aplicación la generación fotovoltaica en un grupo reducido de paneles solares controlados de forma centralizada. Se determinó el uso de un algoritmo de control de tipo MPPT a bajo nivel, y un proceso de Moran para el control de nivel superior centralizado. Se busca que con estos acoplar un sistema de control adecuado a situaciones reales haciendo uso de las aplicaciones de la teoría de juegos en los sistemas de control, un concepto muy reciente que demuestra un crecimiento acelerado dadas sus ventajas.

Con este objetivo en mente se identificó como futura ubicación un conjunto de municipios en la zona cundinamarqués, y se realizó una caracterización de los componentes y protocolos necesarios para la implementación de un panel solar dado estas condiciones. El modelo trabaja magnitudes de potencia de paneles solares, a pesar de que los componentes circuitales sean los correspondientes a celdas solares.

Respecto a los métodos de control, en bajo nivel el MPPT se seleccionó de tipo Perturbe & Observe; y a alto nivel, el proceso de Moran, tras monitorear los resultados en términos de potencia generada, se encarga de seleccionar estrategias que modifiquen la modulación del transistor dentro de los conversores individuales de los paneles/celdas. La plataforma sobre la cual se realiza el desarrollo de estas simulaciones es MATLAB/SimuLink.

Las estrategias utilizan números de tipo entero, con lo cual el caso base de 2:1, y un segundo caso de evaluación es 10:1. Estos valores fueron seleccionados debido a que la dinámica de replicador sobre la cual se basa el proceso de Moran tiene una gran capacidad de respuesta computacional, y al utilizar números decimales se pueden incrementar los tiempos computación debido al uso de

(4)

4 operaciones de tipo punto flotante y conversiones de punto flotante a punto fijo. Este factor es de considerar en el trabajo debido a los grandes tiempos de simulación necesarios.

Se utilizó como base un programa para la obtención de la esperanza de potencia generada en cada posible municipio, con lo cual se determinó un espectro particular (un municipio) anual con el cual normalizar los resultados para el análisis grupal de los paneles (o celdas) solares. A partir de este se consideró un modelo estocástico de radiación solar para alimentar a los paneles/celdas desde el cual el juego respondiese. Para este último paso de modelaje se implementó una cadena de Markov que modela la radiancia en función de que tan despejado se encuentre el cielo de acuerdo al sistema de oktas. El resultado de la radiancia por año y por dia de este proceso se puede ver en la Figura A.

Figura A. Espectro de radiación solar promedio por día del año (arriba). Distribución estocástica de la radiación en un día (abajo).

El proceso de moran propuesto consta de 8 paneles/celdas que representan a un jugador o agente cada uno, y tienen disponibles 2 estrategias para responder a las excitaciones presentadas en el ambiente. Estas estrategias obedecen una naturaleza de tipo Hawk-Dove, buscando de esta forma un equilibrio estocástico de Nash bajo la condición del cumplimiento del teorema de Kurtz.

(5)

5

R

ESULTADOS

Como se puede ver en la Figura B, cada tipo de estrategia (Hawk y Dove) tiene un tipo de respuesta distinto de acuerdo al tipo de cambio presentado en la potencia del sistema.

Figura B. Potencia máxima teórica, parte superior. Potencia generada con estrategia Dove - 1, parte media. Potencia generada con estrategia Hawk - 10, parte inferior.

Finalmente, en términos del equilibrio estocástico de Nash, se encontró que para una población de 8 y un punto inicial distinto a 8:0, o 0:8 (que son estados absorbentes); para los coeficientes de 10:1 y 2:1 entre las estrategias los puntos de equilibrio son 7:1 y 5:3 respectivamente. Siendo las estrategias tipo Dove quienes pueblan la mayor parte de la comunidad. Esto se ve ilustrado en la Figura C.

Figura C. Resultados del proceso de Moran con una población de 8 individuos para estrategias con razones de 2:1 y 10:1.

(6)

6

Contenido

1. Introducción ... 8

2. Objetivos ... 8

2.1. Objetivo general ... 8

2.2. Objetivos específicos ... 8

2.3. Resultados esperados ... 9

3. Marco teórico, conceptual e histórico ... 9

3.1. Marco Teórico ... 9

3.1.1. Energía Solar ... 9

3.1.2. Dinámicas poblacionales (teoría de juegos)... 17

3.1.3. Revisión del estado del arte ... 27

4. Modelo de radiación solar ... 29

5. Proceso de Moran propuesto ... 33

6. Simulación y dinámica del proceso estocástico ... 34

7. Trabajos futuros ... 39

8. Conclusiones... 39

Anexo 1 ... 41

Anexo 2 ... 45

Anexo 3 ... 52

(7)

7

Índice de Figuras

FIGURA 1.PRODUCCIÓN MUNDIAL DE POTENCIA DESDE EL 2000 AL 2010[5]. ... 10

FIGURA 2.CURVA DE APRENDIZAJE PARA MÓDULOS PV Y SISTEMAS PV[6]. ... 10

FIGURA 3. A.DEFINICIÓN DE ÁNGULOS, MERIDIANOS Y COORDENADAS DENTRO DEL MARCO DE REFERENCIA DE LA ESFERA CELESTIAL. B.ILUSTRACIÓN DEL MOVIMIENTO APARENTE DEL SOL DENTRO DE LA ESFERA CELESTIAL Y LA ESFERA ECLÍPTICA [3]. ... 12

FIGURA 4.MODELO CIRCUITAL DE UNA CELDA SOLAR SENCILLA [10]. ... 13

FIGURA 5.A.EFECTO DEL INCREMENTO DE LA RADIACIÓN EN LA CURVA VI DE LAS CELDAS. B.EFECTO DEL INCREMENTO DE LA TEMPERATURA EN LA CURVA VI DE LAS CELDAS. C.RESULTADO DE LA CONEXIÓN EN PARALELO DE DOS CELDAS. D.RESULTADO DE LA CONEXIÓN EN SERIE DE DOS CELDAS [10]. ... 14

FIGURA 6. A.VOLTAJE DE CIRCUITO ABIERTO Y CORRIENTE DE CORTO CIRCUITO COMO FUNCIONES DE LA INTENSIDAD DE LA RADIACIÓN. B.CURVA DE POTENCIA Y MÁXIMO PUNTO DE POTENCIA [11]... 14

FIGURA 7. A.RESUMEN DE LAS OPCIONES POSIBLES EN EL ALGORITMO P&O. B.ESCENARIO DE CAMBIO EN ILUMINACIÓN DURANTE LA IMPLEMENTACIÓN DE UN MÉTODO P&O[3]. ... 16

FIGURA 8.TEOREMA DE KURTZ, APROXIMACIÓN DETERMINÍSTICA DEL PROCESO DE MARKOV {𝑋𝑡𝑁} [1],[16].

... 24

FIGURA 9.LOS CUATRO ESCENARIOS DINÁMICOS EVOLUTIVOS PARA JUEGOS 2X2[17]. ... 26

FIGURA 10.VALORES DE RADIANCIA DIARIA PROMEDIO PARA UN AÑO DEL PUEBLO DE MEDINA. ... 32

FIGURA 11.RESULTADO DE LA SIMULACIÓN PARA UN DÍA DE RADIACIÓN DE ACUERDO A LOS PARÁMETROS ESTOCÁSTICOS EN EL PUEBLO DE MEDINA. ... 32

FIGURA 12.MONTAJE EN SIMULINK DEL ALGORITMO MPPT JUNTO CON UN ELEMENTO EQUIVALENTE A UN PANEL SOLAR EN FORMA DE FUENTE DE CORRIENTE [39]. ... 35

FIGURA 13.IRRADIANCIA EMPLEADA PARA EJECUCIÓN Y DEMOSTRACIÓN DE LAS DIFERENCIAS ENTRE LAS ESTRATEGIAS DOVE Y HAWK 10:1, CASO DE ALTA VARIACIÓN. ... 35

FIGURA 14.POTENCIA MÁXIMA GENERADA POR EL PANEL/CELDA SOLAR (PARTE SUPERIOR), RESPUESTA DE SEGUIMIENTO POR PARTE DE LA ESTRATEGIA DE FACTOR 1, TIPO DOVE (PARTE MEDIA), Y RESPUESTA DE SEGUIMIENTO POR PARTE DE LA ESTRATEGIA DE FACTOR 10, TIPO HAWK (PARTE INFERIOR). ... 36

FIGURA 15.IRRADIANCIA EMPLEADA PARA EJECUCIÓN Y DEMOSTRACIÓN DE LAS DIFERENCIAS ENTRE LAS ESTRATEGIAS DOVE Y HAWK 10:1, CASO DE POCA VARIACIÓN. ... 36

FIGURA 16.RESULTADOS DEL PROCESO DE MORAN DADO N=8, CON N=2 ESTRATEGIAS PARA 2:1 Y 10:1. ... 38

Índice de Tablas

(8)

8

1. Introducción

Con la necesidad de gestionar y entregar una serie de acciones de control para un sistema con un cierto grado de incertidumbre sobre la respuesta de los datos resultados de la implementación de algoritmos evolutivos, o la observabilidad de los datos; la aplicación de conceptos estocásticos toma importancia dado que permite diseñar una estructura de enrutamiento para dichas acciones de control con un costo mínimo sobre las variables de control independientemente del ‘ruido’ intrínseco al sistema. En los sistemas de control se han venido aplicando conceptos de ‘biomimicry’ o biomimetismo para el desarrollo de técnicas tales como las redes neuronales artificiales, la lógica difusa, control adaptativo, etc., y para el caso de la teoría de juegos, se han creado los llamados juegos de varios jugadores y de poblaciones (Many-player and population games), para aprovechar este mismo concepto; sobre el cual ya se ha desarrollado una teoría extensiva y modelos de los cuales se busca partir para la proyección a la teoría de control. Considerando la habilidad y crecimiento de los esquemas de control basados sobre la teoría de juegos, se busca abordar la solución de problemas estocásticos de control sobre esquemas basados en dinámicas poblacionales cuyos comportamientos se pueden describir de forma apropiada por medio de la teoría de juegos [1].

Uno de los escenarios sobre los cuales esta teoría se puede desenvolver es la recolecta y transformación de energía solar a energía eléctrica. Este problema se fundamenta en el conocimiento de la posición del sol sobre el cielo y la ubicación del sistema solar sobre un instante determinado. Una vez determinadas y calculadas estas variables se debe analizar la irradiación de luz solar que llega a la superficie terrestre. Dentro de esta estructura, las nubes son componentes climáticos críticos que influyen sobre diversos tipos de fuentes de energía renovable. Para el caso de la energía solar generan una interferencia a la radiación directa, y generan componentes de radiación indirecta. Se busca que por medio de una estructura de competencia se optimice la toma de energía solar sobre un esquema de patios solares [2], [3], [4].

2. Objetivos

2.1. Objetivo general

Sintetizar métodos de solución de problemas estocásticos sobre dinámicas poblacionales y su posible aplicación a problemas de ingeniería.

2.2. Objetivos específicos

 Analizar el estado del arte de los sistemas estocásticos en dinámicas poblacionales.

 Utilizar la metodología de sistemas estocásticos en dinámicas poblacionales sobre un problema de asignación dinámica de recursos.

(9)

9

2.3. Resultados esperados

Generar una serie de métodos con implementación a diversos problemas de control de donde se pueda tener una validación de desempeño de su solución asociada, obtenida por medio de la proposición de un juego de dinámicas poblacionales sobre problemas que contengan restricciones tanto en variables de decisión, perturbaciones, o un esquema sobre la planta tal como una cadena de Markov o proceso de Moran que demuestre la necesidad o ventaja de implementar una solución apoyada en herramientas estocásticas.

3. Marco teórico, conceptual e histórico

3.1. Marco Teórico

El cumplimiento de los objetivos del presente trabajo presenta como requerimientos el manejo conceptual de dos campos del conocimiento en particular: la energía solar y sus aplicaciones, y la teoría de juegos en su aplicación a dinámicas poblacionales.

3.1.1. Energía Solar

a) Introducción y panorama de la energía solar

La energía contenida en la luz solar es denominada energía solar, y puede ser convertida en electricidad por medio de distintos procesos. Si el proceso de conversión es realizado por medio de dispositivos basados en materiales semiconductores, se le denomina proceso fotovoltaico. El término fotovoltaico consiste de las palabras phos, significando luz, y volt, que se refiere a electricidad y es una referencia al físico italiano Alessandro Volta (1745-1827) quien invento la batería. El proceso de conversión fotovoltaico de energía tiene una eficiencia típica en un rango de entre 15-20% para módulos comerciales [3].

En la Figura 1 se muestra la producción de potencia por parte de los módulos PV en años recientes. El eje vertical representa la producción anual en MW, el eje horizontal representa el tiempo en años. Se puede ver que la producción solar está incrementando más de un 40% cada año, lo cual corresponde a un crecimiento de tipo exponencial.

En la Figura 2 se muestran los precios de los módulos PV y de los sistemas PV con respecto a la capacidad instalada acumulada hasta 100GW. Estos datos son en base a mediciones y estimaciones realizadas hasta el año 2009 [6]. En esta figura se puede observar que la tendencia es hacia la disminución de precios, y que actualmente el precio de un módulo PV está por debajo de 1 Dólar por Vatio-pico, siendo un Vatio-pico la potencia máxima entregada por un módulo PV si se encuentra iluminado con un espectro estándar AM1.5. Por esta razón, la tendencia muestra una inclinación a la determinación del costo de un sistema PV más por efectos de los elementos no modulares que los correspondientes a los costos por paneles y módulos solares; siendo los elementos no modulares las monturas, cableado, inversores, baterías y el sistema de stand-alone, incluyendo igualmente los servicios de mantenimiento [3].

(10)

10

Figura 1. Producción mundial de potencia desde el 2000 al 2010 [5].

Figura 2. Curva de aprendizaje para módulos PV y sistemas PV [6].

Como consecuencia, las tecnologías fotovoltaicas con mayor eficiencia de conversión tienen una ventaja, dado que con mayor eficiencia se requiere una menor área para instalar la misma cantidad de potencia. En tanto a que el área está conectada a los costos no modulares, las tecnologías con mayores eficiencias requieren menores costos de esta naturaleza y por lo tanto se tiene una mejora con respecto al costo del sistema completo. Las tecnologías de cristales de silicio (c-Si) tienen una eficiencia cuyo rango oscila entre el 14% y el 20%, las cuales tienen una ventaja con respecto a tecnologías de película delgada con menores eficiencias.

Se puede asumir que la instalación de sistemas PV descentralizados será parte de una gran revolución energética en el futuro cercano, considerando las posibilidades del crecimiento en provisión de energía eléctrica por parte de tecnologías solares. Esta idea se apoya al observar que la radiación solar está disponible en todo el planeta y que el estimado de energía solar incidente en la superficie de la tierra es cerca de 10.000 veces mayor al consumo total de energía por parte de la humanidad (no solo sujeto al consumo eléctrico). Dado que las fuentes hidroeléctricas y eólicas

(11)

11 están relacionadas al flujo energético generado por el sol, se consideran a estas como formas secundarias de energía solar [3].

Los instrumentos de medición de esta irradiación utilizan varios componentes para determinar la potencia recibida sobre un punto, cuando la luz solar se encuentra con la atmósfera terrestre hay una absorción y una dispersión debido al vapor de agua, aerosoles, nubes y otras moléculas. La irradiación que penetra a la superficie es denominada radiación solar directa. De forma similar la radiación que se dispersa de los rayos directos se denomina como radiación difusa; la suma de estas dos se denomina radiación solar global [7].

b) Radiación solar y el tema de localización

La radiación solar es el producto de la fusión nuclear que se lleva a cabo en el centro del sol, esta produce a partir de cuatro protones un núcleo de helio, 2 positrones, 2 neutrinos y radiación electromagnética [8]. Esta radiación tiene como propiedades importantes la brillantez o radiancia, la potencia, y la irradiancia espectral; con estas propiedades, se capitaliza la dualidad onda-partícula tanto de los fotones como de los electrones para excitar materiales y generar energía eléctrica a partir del fenómeno fotoeléctrico [9]. Con este fin se capitaliza el comportamiento del sol como cuerpo negro para determinar la irradiancia en la superficie. Este espectro por fuera de la atmósfera se denomina el espectro AM0, en tanto AM se refiere a la masa de aire óptica que hay entre el espacio y la superficie.

Al pasar por la atmósfera de la tierra, la radiación solar se atenúa debido a la interacción con las moléculas presentes. Cuando el sol se encuentra en el punto cenital del cielo, la AM es una unidad (AM1), y el espectro asociado se denomina espectro AM1. En general la caracterización de equipos solares y de estudios relevantes toma como referencia del espectro solar el rendimiento en AM1.5, el cual corresponde a un ángulo de 48.2° desde el cenit o 41.2° por encima del horizonte. Aunque el espectro “real” de AM1.5 corresponda a una irradiancia total de 827 W•m^-2, el estándar industrial le asigna a este espectro una medida de 1000 W•m^-2, el cual es cercano al máximo recibido por la superficie de la tierra [3]. A continuación en la ecuación 3.1.2-b.1 se muestra la relación entre el ángulo entre el sol y el cénit, y la masa de aire, donde θ es dicho ángulo.

AM∶= 1

cos⁡(θ)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − b. 1⁡[3]

Por supuesto, el sol no siempre se encuentra en la posición respectiva a AM1.5, sin embargo esta posición es dependiente del tiempo del día y del año, y por supuesto de la ubicación en el planeta. Los sistemas de coordenadas que mejor describen este movimiento para la solución del problema de la ubicación del sol son correspondientes a un sistema cartesiano esférico de radio arbitrario y concéntrico a la tierra. En primera instancia es de bastante utilidad designar los valores obtenidos para un objeto o la proyección de un objeto dentro del cielo observable en términos de: el ángulo de altitud (a) para el cual se vea con un rango entre [-90°, 90°], y el ángulo de azimut (A) correspondiente a la línea proyectada en el plano del observador desde el origen hacia el norte con un rango entre [0°, 360°]. Esto se puede ver en la Figura 3a.

(12)

12 Estos sistemas son la esfera celestial y la esfera eclíptica. La esfera celestial ve al sol desde un punto de referencia igual al de un observador sobre la tierra, describiendo elipses a lo largo del año sobre los mismos puntos temporales en el día; mientras que al realizar el ajuste a la esfera eclíptica se tiene que la trayectoria del sol sigue movimientos circulares. Esto se puede ver en la Figura 3b.

Figura 3. a. Definición de ángulos, meridianos y coordenadas dentro del marco de referencia de la esfera celestial. b. Ilustración del movimiento aparente del sol dentro de la esfera celestial y la

esfera eclíptica [3].

Junto con esto se debe tomar datos tales como GMST (Greenwich Mean Sidereal Time), la longitud y latitud de la ubicación, entre otras constantes para la estimación de la trayectoria del sol a lo largo del día para todos los días del año.

c) Componentes y control de un sistema PV

Un sistema PV no solo consta de celdas solares, sino de una serie de dispositivos que son utilizados para almacenar y administrar la energía generada por dichas celdas. Se debe diferenciar que un módulo PV es un arreglo donde hay varias celdas solares conectadas, un panel solar consta de varios módulos PV eléctricamente conectados y montados en una estructura, y un arreglo PV consiste de varios paneles solares; siendo una celda el elemento básico fotovoltaico que se fabrica. El modelo eléctrico de una celda solar corresponde a una fuente de corriente dependiente de la irradiancia sobre la celda en paralelo con un diodo y una resistencia shunt, y con una resistencia en serie correspondiente a la resistencia interna de cada celda. De esta forma la corriente generada por la celda es la diferencia entre la fotocorriente y la corriente normal del diodo. Esto se muestra en la Figura 4, de donde se obtiene la ecuación 3.1.2-c.1 [10].

(13)

13

Figura 4. Modelo circuital de una celda solar sencilla [10].

𝐼 = ⁡ 𝐼𝑝ℎ− 𝐼𝐷= 𝐼𝑝ℎ− 𝐼0{𝑒𝑥𝑝 [

𝑒(𝑉 + 𝐼𝑅𝑆)

𝑘𝑇𝐶

] − 1} −𝑉 + 𝐼𝑅𝑆 𝑅𝑆𝐻

⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − c. 1⁡[10]

En esta ecuación: k = constante de Boltzmann [J/K]. TC = Temperatura absoluta de la celda [K]. e = carga del electrón [J/V]. V = Voltaje impuesto sobre la celda [V]. I0 = Corriente de saturación del diodo (dependiente de la temperatura) [A].

Con esto se puede observar que los parámetros de la celda son dependientes de la irradiancia recibida y de la temperatura de la celda. Estos corresponden a un aumento en la potencia proporcional al aumento en la irradiancia, aumentando los valores tanto de corriente máxima y de voltaje máximo posibles a entregar por la celda; y un decremento en la potencia de la celda en tanto exista un incremento en la temperatura de la misma. Las magnitudes de corriente y voltaje tras pasar de celda a módulo y de módulo a panel se pueden manipular por medio de la conexión en serie o paralelo de los elementos de más bajo nivel, aumentando el voltaje máximo (conexión en serie) o la corriente máxima (conexión en paralelo). Esto se ve ilustrado en la Figura 5.

Debido a la naturaleza de las pérdidas eléctricas, el arreglo más común es en serie para lograr manejar corrientes más pequeñas, sin embargo es apropiado analizar los puntos de operación ideales de acuerdo a las capacidades del sistema PV completo y a las condiciones a las que se sujeta el mismo. Contemplando el comportamiento de la corriente y el voltaje asociados a la operación del panel se puede determinar un punto de operación donde se entrega la máxima potencia dada una irradiancia fija. En general se busca que los algoritmos de control sigan este punto de operación, para lo cual se desarrollaron los métodos MPPT (Maximum Power Point Tracking) que serán tratados posteriormente.

De este comportamiento se definen unos parámetros básicos que caracterizan tanto a los módulos como a las celdas y paneles en el correspondiente rango de magnitudes. Estos son el voltaje de circuito abierto (VOC), la corriente de corto circuito (ISC), y el factor de llenado (fill factor) del módulo (FFM). Esto se observa en la Figura 6 [11].

(14)

14

Figura 5. a. Efecto del incremento de la radiación en la curva VI de las celdas. b. Efecto del incremento de la temperatura en la curva VI de las celdas. c. Resultado de la conexión en paralelo

de dos celdas. d. Resultado de la conexión en serie de dos celdas [10].

Figura 6. a. Voltaje de circuito abierto y corriente de corto circuito como funciones de la intensidad de la radiación. b. Curva de potencia y máximo punto de potencia [11].

(15)

15 De forma adicional, en sistemas independientes de la red eléctrica, un elemento de almacenamiento de potencia tal como baterías DC es de vital importancia, en cuyo caso un controlador de carga también es requerido. En caso de necesitar una conexión a dicha red, o de la alimentación de cargas AC, un inversor AC-DC resulta necesario. Finalmente, en caso de tener necesidades de demanda o de control de generación especiales se suele incorporar un generador de respaldo a los componentes que hacen parte del sistema PV.

d) Maximum Power Point Tracking

El MPPT es un concepto para la optimización y control de los sistemas PV que se puede aplicar a todos los niveles (celdas, módulos, y arreglos o paneles). Como se puede ver en las figuras 5c y 5d, la conexión entre celdas en paralelo y en serie incrementa los valores de voltaje o corriente pero no altera la forma de la curva I-V. Por lo cual para entender el concepto de MPPT es suficiente considerar dicho comportamiento.

El concepto de punto de operación está definido como el conjunto (pareja) de voltaje y corriente particulares a los cuales el módulo PV opera en un punto de tiempo cualquiera. Para una temperatura e irradiancia dadas, este punto de operación corresponde a la pareja de valores (I, V) con una potencia asociada P = I•V. Este par de coordenadas I-V corresponde a un punto en la curva P-V como se puede ver en la figura 6b, caso para el cual (IM, VM) generan la potencia más alta dados los valores de irradiancia y temperatura manejados. Este punto es denominado el punto de máxima potencia, o por sus siglas en inglés MPP.

La conexión de un módulo PV es ligado al punto de operación de acuerdo a lo dictado por la carga que se le conecta, de modo que para la obtención de la potencia máxima es imperativo forzar el módulo a trabajar en el MPP. Para lograr este objetivo se puede forzar el voltaje al punto Vmpp o regular la corriente al respectivo complemento Impp. No obstante, dado que el MPP es dependiente de la irradiancia y de la temperatura (ambas funciones cambiantes en el tiempo), es necesario hacer seguimiento al desplazamiento de este por medio del rastreo o tracking de la curva I-V, siendo así derivado el proceso de MPPT (Maximum Power Point Tracking).

Los dispositivos que realizan este proceso se llaman MPP trackers y pueden distinguirse dos categorías: El MPPT indirecto que realiza suposiciones sencillas para la estimación del MPP y emplea pocas mediciones. Y el MPPT directo el cual se envuelve más con el sistema, dado que se requieren mediciones de voltaje, corriente, o potencia; con una respuesta más acertada que en el MMPT indirecto [3]. Distintos métodos han sido desarrollados y publicados a lo largo de las últimas décadas, los cuales difieren en diversos aspectos como tipos de sensores, complejidad, costos, rango de efectividad, velocidad de convergencia, seguimiento correcto a cambios de irradiancia y/o temperatura, hardware necesario, entre otros [12]. Se puede ver una revisión de 19 diferentes algoritmos de MPPT en [13].

Resulta más común la implementación de métodos MPPT directos, de entre los cuales el de Perturbar & Observar (P&O) y el conductancia incremental (InCond) son los más comunes. Estas técnicas tienen la ventaja de ser sencillas de implementar, con inconvenientes que serán tratados posteriormente. Otras técnicas están basadas en principios como fuzzy logic, redes neuronales, fracción del voltaje VOC o corriente ISC, barrido de corriente, etc.

(16)

16 P&O y InCond son algoritmos basados en el principio de “escalamiento de la cuesta” (hill-climbing), el cual consiste en mover el punto de operación de un arreglo PV en la dirección en la que la potencia incrementa [14] y [15]. Este tipo de técnicas son las más populares dentro de los métodos MPPT debido a su facilidad a la hora de implementarse y buen desempeño cuando la irradiancia es constante.

En P&O se provee una perturbación al voltaje sobre el cual está operando el módulo. Esta perturbación en el voltaje lleva a un cambio en la salida de potencia. Si al incrementar el voltaje se aumenta la potencia, el punto de operación se encuentra por debajo del MPP, por lo que se debe continuar perturbando en este sentido, es decir, hacia más altos voltajes. En contraste, si un incremento en el voltaje lleva a un decremento en la potencia, el generar perturbaciones de voltaje hacia potenciales menores llevará al sistema hacia el MPP. De forma que este algoritmo converge sobre el MPP tras varias iteraciones. Este principio se resume en la Figura 7a [3].

Uno de los problemas con este algoritmo es que nunca llega al MPP en el estado estable, sino a una conmutación entre estados cercanos a este, problema que se puede minimizar al utilizar pasos de más pequeños en las perturbaciones. Adicionalmente otro problema resulta al considerar el dinamismo del MPP al encontrar cambios de iluminación/temperatura repentinos. Por ejemplo si la iluminación cambiase entre dos instantes de muestreo en el proceso de convergencia, entonces el algoritmo falla al intentar converger, como se muestra en la Figura 7b [3].

Figura 7. a. Resumen de las opciones posibles en el algoritmo P&O. b. Escenario de cambio en iluminación durante la implementación de un método P&O [3].

Esté la operación del sistema sobre la curva roja, y bajo el cómputo de la secuencia ABC, sobre el punto B este método calcula que el MPP se encuentra en un punto de voltaje superior, siendo la perturbación consecuente convergente al MPP, sin embargo en caso de que la iluminación dejase de ser constante en el siguiente tiempo de muestreo y no se llegase al punto C sino a C’, es decir, bajar a la curva azul; el algoritmo identificaría que PB > PC’ por lo que el MPP será asumido en un punto menor a VC’ lo cual es incorrecto y no pasaría en caso de haber aterrizado en C. Este comportamiento representa un detrimento en la velocidad de convergencia del algoritmo, y es una de las características críticas del mismo.

(17)

17 El método de conductancia incremental toma que:

𝐺 = 𝐼

𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 1⁡[3]

Sobre el punto MPP, la tangente a la curva es cero, por lo cual:

𝑑𝑃

𝑑𝑉= 0⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 2⁡[3]

Debido a la definición de potencia, se puede denotar que:

𝑑𝑃 𝑑𝑉=

𝑑(𝐼𝑉)

𝑑𝑉 = 𝐼 + 𝑉 𝑑𝐼

𝑑𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 3⁡[3]

Con lo que en tiempos de muestreo cortos, se puede aproximar a:

𝑑𝐼 𝑑𝑉≈

∆𝐼

∆𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 4⁡[3]

De acá, el término ΔI/ΔV se denomina conductancia incremental e I/V se denomina conductancia constante. Por consiguiente, se tiene que

∆𝐼 ∆𝑉= −

𝐼

𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑠𝑖⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑉 = 𝑉𝑚𝑝𝑝⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 5⁡[3] ∆𝐼

∆𝑉> − 𝐼

𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑠𝑖⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑉 < 𝑉𝑚𝑝𝑝⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 6⁡[3]

∆𝐼 ∆𝑉< −

𝐼

𝑉⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑠𝑖⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑉 > 𝑉𝑚𝑝𝑝⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.1 − 𝑑. 7⁡[3]

Este algoritmo puede ser más eficiente que el P&O dado su comportamiento en el estado estable, particularmente al fijar intervalos de muestreo cortos, sin embargo bajo condiciones de sombreado parcial este método resulta más ineficiente. El mayor inconveniente presentado por este método resulta ser la complejidad en la implementación de sus componentes físicos. Esto es la medición de corrientes y voltajes, junto con los valores instantáneos e incrementales de conductancia siendo calculados y comparados [3].

3.1.2. Dinámicas poblacionales (teoría de juegos)

El modelamiento de interacciones estratégicas de poblaciones grandes con pequeños agentes anónimos se puede llevar a cabo por medio del concepto de juegos poblacionales, complementado con el concepto de los protocolos de revisión. El juego poblacional describe la interacción estratégica que ocurre constantemente, mientras que el protocolo de revisión especifica el protocolo miope que emplea un agente para escoger nuevas estrategias. Al comenzar con un juego poblacional y con protocolo de revisión se puede derivar un proceso dinámico, de carácter determinístico o estocástico, que describa el comportamiento conjunto de los agentes a lo largo del tiempo. Estos procesos son conocidos como dinámicas de juego evolutivas.

(18)

18 La aplicación o extrapolación de los conceptos asociados a las dinámicas de juego evolutivas (EGD) se puede extender a distinto ambientes de carácter económico, social, y tecnológico, dado que tengan unas ciertas características básicas. Primeramente, cada ambiente debe contener un número de agentes grande capaces de realizar decisiones de forma independiente. Segundamente, cada agente debe ser pequeño, de forma que las decisiones ejecutadas por cada agente generen un impacto menor sobre los resultados de los demás agentes. Terceramente, los agentes son anónimos: los resultados de una interacción en un agente depende de su propia estrategia y de la distribución de las estrategias de los otros, no se requiere más individualización de los oponentes.

Los agentes en una población dada se asumen como idénticos: la población de un agente determina el rol de este en el juego, las estrategias disponibles a este, y sus preferencias. Estas preferencias son descritas por una función de costo que se condiciona a la estrategia propia del agente y a la distribución de estrategias en cada población. El comportamiento conjunto o agregado de un juego poblacional esta descrito por un estado social, el cual especifica la distribución empírica de las decisiones estratégicas en cada población. Por simplicidad se asume que hay un número finito de poblaciones jugando un número finito de estrategias. Esto asegura que el estado social sea de dimensión finita, expresable como un vector con un número de componentes finito, equivalente a un polítopo (para el caso de poblaciones continuas).

La solución fundamental de un juego no-cooperativo en teoría de juegos es el equilibrio de Nash, el requerimiento que cada agente escoja una estrategia que sea óptima dada la elección de los demás. Este concepto a pesar de ser central, está justificado por medio de tres supuestos: Primero, se asume que cada jugador es racional: los jugadores buscan maximizar sus funciones de costo dada la información que conocen. Segundo, los jugadores poseen conocimiento del juego que están desarrollando: conocen las estrategias disponibles y la rentabilidad resultante de cada uno de estos perfiles. Tercero, los jugadores tienen conocimiento del equilibrio: estos son capaces de anticipar correctamente lo que harán sus oponentes. De esta forma si todos los jugadores esperan un perfil estratégico determinado para jugar, es racional, y entiende los resultados sobre la función de costos al cambiar de estrategias, entonces cada jugador se contenta con jugar su rol y sostener el equilibrio de Nash.

A pesar de ser posible una aproximación directa a la descripción de las dinámicas del comportamiento conjunto de una población, es preferible especifica el cuándo y cómo realiza un agente una decisión. Esto se logra por medio de una herramienta de modelaje llamado protocolo de revisión. Este toma las rentabilidades de las estrategias y los niveles de utilización como entradas, y entrega como salida la tasa de cambio de estrategias y las probabilidades con las que cada estrategia es escogida. Los protocolos se pueden clasificar en dos categorías: imitativos y directos. Los protocolos imitativos proveen de posibles estrategias a un jugador por medio de la observación a un miembro aleatorio de la población. En los protocolos directos se asume que los agentes escogen posibles estrategias de forma directa, sin relación a la popularidad de las distintas estrategias. Un agente puede oscilar entre distintos protocolos a lo largo del tiempo, lo que se conoce como un protocolo híbrido.

La mayor parte de la literatura está dedicada al estudio de las EGD determinísticas, sin embargo otra rama amplia de la literatura se enfoca en el comportamiento sobre un horizonte infinito de las dinámicas estocásticas evolutivas, dentro de esta rama se busca lograr la obtención de predicciones

(19)

19 para los juegos con múltiples puntos de equilibrio. Para lograr este objetivo se consideran juegos donde las poblaciones tienen una cantidad de agentes grande pero finito. El método más eficaz para el estudio de estos procesos depende de los valores de los parámetros del tamaño de la población N y el horizonte de tiempo de evaluación T (notación de [1]). Para el caso en el que N es lo suficientemente grande, el proceso estocástico tiene tendencias a comportarse de una forma muy cercana a la determinística a lo largo de T; mientras que para una población fija de tamaño N y un horizonte de tiempo con tendencia al infinito, se estudia una función de distribución o una cadena de Markov irreducible (ya sea inherentemente irreducible o la simplificación del proceso original), teniendo un número infinito de visitas a cada estado y una independencia del estado inicial.

La porción de tiempo que un proceso de Markov irreducible gasta en cada estado es descrito por la distribución estacionaria del mismo. Sobre este tipo de juegos, inclusive en caso de existir múltiples equilibrios, ocurre el caso en que la dinámica estocástica evolutiva gasta la mayoría de sus periodos en la vecindad de un estado en particular. Sin embargo debido al excesivamente largo tiempo de análisis necesario para estos casos, el rango de posibles aplicaciones es limitado. Estados que retienen la masa de la población en la limitación de las distribuciones estacionarias son llamados estocásticamente estables, en particular un proceso de Moran cumple con esta condición.

De forma adicional a las tres restricciones mencionadas previamente, es necesario introducir otras dos de carácter más técnico para el desarrollo de entornos de interés. Estas son: Cuarta, el número de roles es finito: cada agente es miembro de una población de un número finito de estas; los miembros de una población escogen de un mismo conjunto de estrategias, y sus funciones de costo son idénticas con respecto al comportamiento propio y de los oponentes. Quinta, las funciones de costo son continuas: La dependencia de la rentabilidad de cada agente sobre la distribución de las decisiones de los oponentes es continua.

Para analizar y desarrollar una EGD, ya sea determinística o estocástica, es necesario tener claras las definiciones matemáticas y abstractas de los conceptos de: poblaciones, estrategias, estados, funciones de costo, y protocolos de revisión, además del ya descrito equilibrio de Nash [1].

a) Definiciones y herramientas [1]

Definición 3.1.2-a.1: sociedad, poblaciones, y masa Sea Ƥ = {1,…, p} una sociedad consistente de p ≥ 1 poblaciones de agentes. Los agentes en una población o forman un continuo de masa mp> 0. (Siendo así p el número de poblaciones, donde p es una población arbitraria.

Definición 3.1.2-a.2: estrategias, y estrategias puras El conjunto de estrategias disponibles para los agentes de la población p tiene notación Sp = {1,…, np}, y tiene elementos típicos i, j, y sp. El número total de estrategias puras en todas las poblaciones tiene como notación 𝑛 = ⁡ ∑𝑝∈Ƥ𝑛𝑝.

Definición 3.1.2-a.3: estados poblacionales y sociales Durante el juego cada agente selecciona una estrategia pura de Sp. El conjunto de estados poblacionales (o distribuciones de estrategias) por población p es 𝑋𝑝= {𝑥𝑝⁡ ∈ ⁡ ℝ+𝑛

𝑝

:⁡∑𝑖∈𝑆𝑝𝑥𝑖𝑝= 𝑚𝑝}. El escalar xp ∈ℝ+ representa la masa de jugadores en la población p que eligen la estrategia i∈ Sp. Los elementos de X

vp, el conjunto de vértices Xp, son llamados estados de poblaciones puras debido a que en estos estados todos los agentes seleccionan la misma estrategia. Los elementos de 𝑋 = ∏𝑝∈Ƥ𝑋𝑝= {𝑥 = (𝑥1, … , 𝑥𝑝) ∈

(20)

20

ℝ+𝑛:⁡𝑥𝑝∈ 𝑋𝑝}, el conjunto de estados sociales, describen el comportamiento de todas las

poblaciones p. El comportamiento de 𝑋𝑝= ∏ 𝑋𝑣 𝑝

𝑝∈Ƥ son los vértices de X y son llamados estados

sociales puros.

Al manejar una única población (p=1) se asume que su masa es 1. De esta forma el conjunto de estrategias S = {1,…, n}; el espacio de estados es 𝑋 = {𝑥 ∈ ℝ+𝑛: ∑𝑖∈𝑆𝑝𝑥𝑖 = 1}, el simplex en ℝ n, y

el conjunto de estados puros Xv = {ei: 𝑖 ∈ 𝑆} es el conjunto de vectores de la base canónica en ℝ n.

Definición 3.1.2-a.4: funciones de costo Una función de costo 𝐹: 𝑋 → ℝ𝑛 es un mapa continuo que asigna un vector de rentabilidad a cada estado social, para cada una de las estrategias en la población. 𝐹𝑖𝑝: 𝑋 → ℝ denota la función de costo para la estrategia i∈ Sp, y 𝐹𝑝: 𝑋 → ℝ𝑛 denota la función de costo para todas las estrategias en Sp. Es común, particularmente para el estudio de dinámicas estocásticas, imponer que F sea Lipschitz continua (continuidad Lipschitziana) o diferenciable de forma continua. De esta forma, el costo ponderado promedio y el costo acumulado se pueden expresar respectivamente como:

𝐹𝑝(𝑥) = ⁡ 1

𝑚𝑝∑ 𝑥𝑖 𝑝

𝐹𝑖𝑝(𝑥)

𝑖∈𝑆𝑝

⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑎. 1⁡[1]

𝐹(𝑥) = ⁡ ∑ ∑ 𝑥𝑖𝑝𝐹𝑖𝑝(𝑥)

𝑖∈𝑆𝑝

𝑝∈Ƥ

= ∑ 𝑚𝑝𝐹𝑝(𝑥)

𝑝∈Ƥ

⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑎. 2⁡[1]

Teorema 3.1.2-a.1: Todo juego poblacional admite al menos un equilibrio de Nash.

Definición 3.1.2-a.5: equilibrio de Nash y mejor respuesta El equilibrio de Nash se encuentra en un estado x ∈ X para un juego F si cada agente en cada población elije la mejor respuesta a x; siendo la mejor respuesta la especificación de estrategias en Sp que son óptimas en cada estado social x 𝑏𝑝: 𝑋⁡ ⇒ ⁡ 𝑆𝑝, i. e. 𝑏𝑝(𝑥): argmax

𝑖∈𝑆𝑝 𝐹𝑖

𝑝

(𝑥).

Una de las herramientas más convenientes para el tratamiento matemático es la construcción de vectores de desplazamiento y espacios tangentes para la exploración de las estrategias y estados sociales por población en los juegos, y proyecciones para el cálculo de las funciones de costo y rentabilidades de los estados. De esta forma los juegos de dos y tres estrategias se reducen a ℝ 2, y

3respectivamente, en donde se puede recurrir con facilidad a herramientas geométricas provistas por el cálculo vectorial.

Los protocolos de revisión se centran en el modelamiento del comportamiento de los agentes que toman parte de la EGD. Tradicionalmente, las predicciones del comportamiento de los juegos se realizan con base a una noción de equilibrio, típicamente el equilibrio de Nash o un concepto elaborado en base a este. Estas nociones están basadas en la suposición de un conocimiento del equilibrio, el cual postula que cada jugador anticipa de forma correcta como van a actuar sus oponentes. Este conocimiento del equilibrio es difícil de justificar y es particularmente fuerte en contextos con un número grande de agentes.

Como alternativa al enfoque del equilibrio, se introduce un modelo dinámico en el cual cada agente reconsidera la elección de su estrategia, usando reglas miopes para ajustar sus acciones en respuesta

(21)

21 al ambiente estratégico actual. Un protocolo de revisión ρ toma las funciones de costo actuales y los comportamientos acumulados como entradas, sus salidas son tasas de conmutación condicionales

𝜌𝑖𝑗𝑝(𝜋𝑝, 𝑥𝑝), que describe que tan frecuentemente un agente jugando la estrategia i∈ Sp quienes están considerando un cambio o conmutación a la estrategia j ∈ Sp, dado que los vectores de rentabilidad y de estado poblacional actuales son πp y xp. Los protocolos de revisión son lo suficientemente flexibles como para acomodar un amplio rango de paradigmas de decisión, incluyendo aquellos basados en imitación, optimización, entre otros.

Un juego poblacional F describe un ambiente estratégico; un protocolo de revisión ρ describe los procedimientos que un agente sigue al adaptar su comportamiento a dicho ambiente. Juntos, F y ρ definen un proceso evolutivo estocástico, un proceso cuyos elementos estocásticos son condicionales independientes sobre el estado poblacional actual. Ya que el número de agentes es grande, la intuición del tratamiento de números grandes sugiere que el ruido idiosincrático en el proceso será eliminado por ponderación, dejando un comportamiento conjunto para evolucionar acorde a un proceso esencialmente determinístico. Sin embargo esta aproximación no resulta válida para rangos de tiempo infinitos, no obstante en el caso de modelamientos por medio de procesos de Markov se puede analizar el comportamiento de los posibles rangos por medio del análisis de la dinámica media.

El acercamiento evolutivo a las dinámicas de juegos poblacionales está basado en dos supuestos, inercia y miopía, que dictan la forma que toman las dinámicas.

Definición 3.1.2-a.6: Inercia Implica que agentes individuales no reevalúan de forma continua sus decisiones en el juego, sino que en su lugar reconsideran sus estrategias de forma esporádica.

Definición 3.1.2-a.7: Miopía Implica que agentes revisores condicionan sus decisiones con base a su comportamiento actual y oportunidades de rentabilidad; no intentan incorporar convicciones acerca del rumbo futuro del juego a sus decisiones.

Los conceptos de miopía e inercia son construidos de forma mutua, dado que el comportamiento miope es más sensible en tanto el comportamiento de los oponentes se ajusta lentamente, de modo que las estrategias que son atractivas en el presente probablemente continúen siéndolo.

Definición 3.1.2-a.8: Protocolo de revisión Un protocolo de revisión ρp es un mapa de la forma

𝜌𝑝:⁡ℝ𝑛𝑝× 𝑋𝑝⁡ → ⁡ ℝ+𝑛

𝑝×𝑛𝑝

⁡. El escalar 𝜌𝑖𝑗𝑝(𝜋𝑝, 𝑥𝑝) es llamado tasa condicional de cambio de la estrategia i∈ Sp a la estrategia j Sp dado el vector de rentabilidad 𝜋𝑝 y el estado poblacional 𝑥𝑝. Un protocolo de revisión describe cómo y cuándo un agente individual actualiza su estrategia a lo largo del tiempo.

La interpretación de los componentes de la diagonal para los protocolos de revisión, 𝜌𝑖𝑖𝑝, tienden a no jugar un papel en particular. Sin embargo en determinados casos como juegos que obedecen un proceso de Moran o una distribución de Poisson esta diagonal está asociada a la probabilidad de que un jugador con estrategia i no cambie a una j.

Por ejemplo si se examina un proceso estocástico evolutivo en donde cada agente tiene una alarma que sigue una distribución de Poisson, independientes entre sí, que marca la llegada de su protocolo

(22)

22 de revisión con valor esperado de la tasa de distribución exponencial R. entonces se tiene que el cambio entre estrategias ocurre con una probabilidad 𝜌𝑖𝑗𝑝/𝑅. Sea el estado actual x y el tiempo de análisis el intervalo [0, dt], el número esperado de protocolos de revisión en una población de tamaño N recibida por los agentes jugando la estrategia i es aproximadamente: NxiRdt

Este número es aproximado debido a que el valor de xi puede cambiar a lo largo del intervalo [0, dt], pero este cambio tiende a ser pequeño si dt es pequeño. Dado que un jugador i recibe una oportunidad para cambiar a j con una probabilidad de 𝜌𝑖𝑗/𝑅, el número esperado de cambios en los

siguientes dt instantes es: Nxiρijdt

Con esto el cambio en el uso de estrategias i para el siguiente dt es

𝑁 (∑ 𝑥𝑗𝜌𝑖𝑗 𝑗∈𝑆

− 𝑥𝑖∑ 𝜌𝑖𝑗 𝑗∈𝑆

) 𝑑𝑡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑎. 3⁡[1]

En la ecuación 3.1.2-a.3, el primer término representa los cambios desde otras estrategias a i

mientras que el segundo término representa los cambios de agentes jugando la estrategia i a las demás. Al dividir por N se obtiene la esperanza de cambio en la proporción de agentes escogiendo la estrategia i, esto es, el componente xi del estado social. Al realizar la integración se obtiene la ecuación diferencial para el estado social:

𝑥𝑖̇ = ∑ 𝑥𝑗𝜌𝑖𝑗 𝑗∈𝑆

− 𝑥𝑖∑ 𝜌𝑖𝑗 𝑗∈𝑆

⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑎. 4⁡[1]

Esta ecuación diferencial es la mean dynamic correspondiente al protocolo de revisión ρ e implícitamente al juego poblacional F.

Definición 3.1.2-a.9: Mean Dynamic Sea F un juego poblacional, y ρ un protocolo de revisión.

La mean dynamic correspondiente a F y ρ es:

𝑥𝑖𝑝̇ = ∑ 𝑥𝑗𝑝𝜌𝑗𝑖𝑝(𝐹𝑝(𝑥), 𝑥𝑝) 𝑗∈𝑆𝑝

− 𝑥𝑖𝑝∑ 𝜌𝑗𝑖𝑝

𝑗∈𝑆𝑝

(𝐹𝑝(𝑥), 𝑥𝑝)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(𝑀)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑎. 5⁡[1]

Definición 3.1.2-a.10: Protocolos objetivo y dinámicas objetivo Un protocolo de revisión ρ es un

protocolo objetivo si las tasas de cambio de ρ no dependen en la estrategia actual del agente; en otras palabras, 𝜌𝑖𝑗𝑝 puede depender de la estrategia j pero no de la estrategia titular i. Estos protocolos se pueden representar usando mapas de la forma 𝜏𝑝:⁡ℝ𝑛𝑝× 𝑋𝑝⁡ → ⁡ ℝ+𝑛

𝑝

, donde 𝜌𝑖𝑗𝑝 ≡ 𝜏𝑗𝑝

para todo i ∈ Sp. El tipo de dinámica resultante de esta restricción es denominada dinámica objetivo.

b) Tratamiento de dinámicas estocásticas [1]

Para determinar un límite al rango analítico se toma una red de estados sociales factibles discretos

𝑋𝑁 = 𝑋 ∩1 𝑁ℤ

(23)

23 Un concepto vital dentro del análisis de los procesos estocásticos es el teorema de Kurtz. Para comenzar se enuncia un resultado general sobre la convergencia de una secuencia {{𝑋𝑡𝑁}}𝑁=𝑁∞ 0de

procesos de Markov con pasos de tiempo decrecientes. Supóngase que el proceso indexado por N toma valores en el espacio de estados 𝑋𝑁, y sea 𝜆𝑁∈ ℝ

+

𝑋𝑁y 𝑃𝑁 ∈ ℝ +𝑋

𝑁×𝑋𝑁

denotado como el vector de tasa de saltos y la matriz de transición de este proceso. Se asume como caso de estudio para la extensión de conceptos el proceso de Poisson.

Para enunciar el teorema de Kurtz es necesario definir con anterioridad los siguientes conceptos matemáticos: Sea 𝜁𝑥𝑁una variable aleatoria definida en un espacio probabilístico arbitrario cuya

distribución describe el incremento estocástico de {𝑋𝑡𝑁} desde el estado x:ℙ(𝜁

𝑥𝑁 = 𝑧) = ℙ𝑥,𝑥+𝑧𝑁 . Y

las funciones 𝑉𝑁:⁡𝑋𝑁 → 𝑇𝑋, 𝐴𝑁: 𝑋𝑁→ ℝ, y 𝐴 𝛿

𝑁: 𝑋𝑁 → ℝ, donde TX es el espacio tangente al

polítopo que describe el espacio de estados factible. De estas funciones, sea 𝔼 el operador esperanza, se tiene que:

𝑉𝑁(𝑥) = ⁡ 𝜆𝑥𝑁𝔼𝜁

𝑥𝑁⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 1⁡[1]

𝐴𝑁(𝑥) = ⁡ 𝜆 𝑥 𝑁𝔼|𝜁

𝑥𝑁|⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 2⁡[1]

𝐴𝛿𝑁(𝑥) = ⁡ 𝜆𝑥𝑁𝔼 |𝜁𝑥𝑁1{|𝜁𝑥𝑁|>𝛿}| ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 3⁡[1]

𝑉𝑁(𝑥), el producto de la tasa de salto al estado x y el incremento esperado por salto a x, representa el incremento esperado por unidad de tiempo desde x bajo {𝑋𝑡𝑁}. De esta forma 𝑉𝑁 es una

definición alternativa a la mean dynamic de {𝑋𝑡𝑁}. De un modo similar, 𝐴𝑁(𝑥) es el valor esperado

del desplazamiento por unidad de tiempo, y 𝐴𝛿𝑁(𝑥) es el desplazamiento absoluto esperado por unidad de tiempo debido a saltos que lleven más allá de un δ.

Teorema 3.1.2-b.1: Teorema de Kurtz: Sea 𝑉: 𝑋 → 𝑇𝑋 un campo vectorial Lipschitz

continuo. Suponga que para una secuencia {𝛿𝑁}

𝑁=𝑁0

que converge a 0,

𝑙𝑖𝑚

𝑁→∞𝑥∈𝑋𝑠𝑢𝑝𝑁|𝑉

𝑁(𝑥) − 𝑉(𝑥)| = 0,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 4⁡[1]

𝑙𝑖𝑚

𝑁→∞𝑥∈𝑋𝑠𝑢𝑝𝑁𝐴

𝑁(𝑥) < ∞,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 5⁡[1]

𝑙𝑖𝑚

𝑁→∞𝑥∈𝑋𝑠𝑢𝑝𝑁𝐴𝛿

𝑁(𝑥) = 0,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 6⁡[1]

Aproximación determinística al proceso de Markov {𝑋𝑡𝑁}:

y suponga que las condiciones iniciales 𝑋0𝑁 = 𝑥0𝑁 convergen a 𝑥0∈ 𝑋. Sea {𝑥𝑡}𝑡≥0 la solución a la

mean dynamic

𝑥̇ = 𝑉(𝑥)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(𝑀)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑏. 7⁡[1]

Inicializada en 𝑥0. Entonces para cada 𝑇 < ∞, y⁡𝜀 > 0,

lim

𝑁→∞ℙ ( sup𝑡∈[0,𝑇]|𝑋𝑡 𝑁− 𝑥

(24)

24 La abstracción de este teorema dice que con poblaciones grandes (N grande), la mayoría de los caminos modelo para el proceso de Markov {𝑋𝑡𝑁} se mantienen dentro de un rango ε de la solución

a la mean dynamic (M) a lo largo del tiempo T. De modo que si n es lo suficientemente grande, entonces con probabilidad cercana a 1, la diferencia entre 𝑋𝑡𝑁 y 𝑥𝑡 es menor a ε para todo t entre 0 y

T, esto se muestra en la figura 8.

Figura 8. Teorema de Kurtz, aproximación determinística del proceso de Markov {𝑋𝑡𝑁} [1], [16].

El resultado obtenido por medio de esta aproximación determinística es un resultado aplicable a un horizonte finito y no puede ser extendido a un horizonte infinito. Para casos en donde el modelo de Markov que describe el proceso de interés sea irreducible entonces cada estado en xN es visitado de forma infinitamente frecuente con probabilidad 1, y el análisis inherente a un horizonte infinito del proceso requiere de esta forma un conjunto de herramientas distintas.

c) Dinámicas de replicador y proceso de Moran [1], [17]

La dinámica de replicador fue presentada por Taylor y Jonker (1978) y es la dinámica mejor conocida en la teoría de juegos evolutiva, perteneciendo al dominio de los juegos determinísticos. La ecuación diferencial que gobierna la evolución de las densidades de las distintas estrategias (mean dynamic) es [18]:

𝑥𝑖̇ = 𝑥𝑖(𝐹𝑖− 〈𝐹〉)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑐. 1⁡[17]

En esta ecuación 〈𝐹〉 es el promedio de las funciones de costo en toda la población. Si la aptitud o fitness de una estrategia está por encima de la aptitud promedio de la población, su densidad incrementará, en caso de que esta aptitud esté por debajo del promedio entonces la densidad correspondiente disminuirá. Para el caso en que cada estrategia i tenga unos valores πi fijos, se habla de un caso de selección constante. En general πi depende de la composición de la población. De esta forma 〈𝐹〉 se torna cuadrático en fracciones de xj, volviendo a la dinámica no-lineal. Debido al

(25)

25 manejo por fracciones de la población en la ecuación de replicador, se utiliza como sistema cartesiano un simplex probabilístico; donde dos estrategias mueven la masa de la población en una línea, tres estrategias en un triángulo equilátero, y así sucesivamente i. e. para n estrategias 𝑛 → ℝ𝑛−1, 𝑛 > 1.

Al considerar como ejemplo la norma formal de un juego de dos jugadores, o juego 2x2, se obtiene una matriz de rentabilidad de la forma:

⁡ 𝐴 𝐵 𝐴

𝐵 ( 𝑎 𝑏

𝑐 𝑑)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑐. 2⁡ [17]

Donde a, b, c, y d son los valores de rentabilidad de jugar A vs. A, A vs. B, B vs. A, y B vs. B respectivamente. Estas rentabilidades son determinadas por la fracción de interacciones con una estrategia dada. Dado que solo hay una estrategia se puede determinar el estado de la población por medio de 𝑥 = 𝑥1= 1 − 𝑥2. Las funciones de costo son 𝐹𝐴 = 𝑎𝑥 + 𝑏(1 − 𝑥), 𝑦⁡𝐹𝐵 = 𝑐𝑥 + 𝑑(1 −

𝑥). Esto lleva a la ecuación (M):

𝑥̇ = 𝑥(1 − 𝑥)[(𝑎 − 𝑏 − 𝑐 + 𝑑)𝑥 + 𝑏 − 𝑑]⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑐. 3[17]⁡

En esta, además de los puntos x=0 y x=1, la ecuación del replicador puede tener un tercer punto fijo (equilibrio de Nash) para 𝑎 > 𝑐, 𝑦⁡𝑑 > 𝑏 o para 𝑎 < 𝑐, 𝑦⁡𝑑 < 𝑏,

𝑥∗= 𝑑 − 𝑏

𝑎 − 𝑏 − 𝑐 + 𝑑⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑐. 4[17]

De donde se pueden distinguir cuatro casos genéricos [19]: Dominancia ocurre cuando una estrategia es siempre la mejor elección, independientemente de las acciones del oponente; para este caso el punto en x = 1 es estable y el punto x = 0 es inestable si A domina a B (𝑎 < 𝑐, 𝑦⁡𝑏 < 𝑑) y viceversa en el escenario en que B domina a A (𝑎 > 𝑐, 𝑦⁡𝑏 > 𝑑). Biestabilidad se da cuando 𝑎 > 𝑐⁡𝑦⁡𝑑 > 𝑏, los puntos x = 0 y x = 1 son estables y se encuentran separados por un punto fijo inestable 𝑥∗. Los juegos correspondientes son los llamados juegos de coordinación (coordination games) en donde se busca llegar a la función de costo en el equilibrio, pero en caso de tener oponentes poco fiables se recurre a evadir grandes pérdidas. Al adoptar esta metodología se llega al concepto de riesgo dominante o dominancia riesgosa (risk dominance). En este caso A ejerce dominancia riesgosa para 𝑎 + 𝑏 > 𝑐 + 𝑑⁡(𝑖. 𝑒. 𝑥∗< 1

2); y para 𝑎 + 𝑏 < 𝑐 + 𝑑, 𝑜⁡𝑥 ∗>1

2 la estrategia

B ejerce dominancia riesgosa. Coexistencia sucede para la condición 𝑎 < 𝑐⁡𝑦⁡𝑏 > 𝑑,⁡donde hay un punto estable en 𝑥∗. Por lo tanto la población se torna en una mezcla estable entre las estrategias A y B y los punto x = 0 y x = 1 son inestables. El caso de Neutralidad se produce cuando la dinámica maneja 𝑎 = 𝑐⁡𝑦⁡𝑏 = 𝑑, con lo que esta predice puntos fijos estables neutrales para todos los valores de x. Este último caso se torna referencial en el análisis evolutivo estocástico para poblaciones finitas, a diferencia del limitado interés que genera para el análisis dentro de las dinámicas de replicador. En la figura 9 se pueden ver representaciones gráficas de estos cuatro casos.

En un marco genético la ecuación de replicador se obtiene cuando los individuos se reproducen a una tasa proporcional a su aptitud. En un marco cultural la ecuación de replicador se obtiene de

(26)

26 individuos imitando acciones de mejores rendimientos con una probabilidad proporcional a la esperanza del aumento de rentabilidad.

Figura 9. Los cuatro escenarios dinámicos evolutivos para juegos 2x2 [17].

En la Figura 9, flechas indican la dirección de selección, los círculos rellenos representan puntos fijos estables, y los círculos vacíos puntos fijos inestables. En el caso neutral todo el segmento de recta consiste de puntos fijos estables neutrales.

El proceso de Moran es un modelo clásico de genética poblacional [20] y fue transferido a la teoría de juegos recientemente [21, 22]. En este un individuo es elegido de forma aleatoria, pero proporcional a su aptitud, y produce un individuo (descendiente) idéntico. Para mantener el número de jugadores constante, un individuo elegido de forma aleatoria es removido de la población antes de que el descendiente se le una. El proceso de Moran representa un proceso simple de nacimiento-muerte. La aptitud es una combinación convexa de la aptitud ambiental (normalmente fijada a uno) y a la función de costo o rentabilidad del juego, esto es 𝑓 = 1 − 𝑤 + 𝑤𝐹. Donde 𝑤 determina la intensidad de la selección: para 𝑤 = 0, la selección es neutral y se desarrolla un proceso aleatorio sin dirección; para 𝑤 = 1, la aptitud (fitness) es igual a la rentabilidad. En casos donde los valores asociados a la función de costo pueden ser negativos se debe definir una máxima intensidad de selección, en tanto la aptitud debe ser positiva. Esta restricción normalmente se supera al considerar una función exponencial de la forma 𝑓 = exp⁡(𝑤𝐹), caso para el cual la intensidad de selección 𝑤

puede tomar cualquier valor positivo.

Para los juegos 2x2 no-innovadores, i. e. juegos donde una vez una estrategia se extingue no vuelve a aparecer, se tienen dos estados de absorción: o todos los individuos juegan la estrategia A, o la estrategia B.

El proceso de Moran tiende a comportarse de forma similar a una selección neutral desde un punto de vista del límite biológico relevante. De este proceso los conceptos de funciones de pago para las estrategias, la aptitud (fitness) por estrategia, y las probabilidades de transición resultan ser para un juego 2x2 en términos matemáticos:

𝜋𝐴 =

𝑗 − 1 𝑁 − 1𝑎 +

𝑁 − 𝑗

𝑁 − 1𝑏⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡3.1.2 − 𝑐. 5[17]

𝜋𝐵=

𝑗 𝑁 − 1𝑐 +

𝑁 − 𝑗 − 1

Referencias

Documento similar

La plataforma desplegará otra ventana para subir el archivo que contiene el Documento, presione el botón Browse para seleccionar el archivo que desea subir a la plataforma:...

Hemos puesto de manifiesto los límites de la pluralidad descriptiva existente al día de hoy para esta categoría, y esto es lo que llamamos la problemática de

Se establecen las bases reguladoras del programa de fomento y consolidación del empleo a través del Programa I, para las pequeñas empresas de nueva creación, y el Programa II,

Convocatoria de ayudas públicas en régimen de concurrencia competitiva para proyectos de carácter no productivo de la medida 19 &#34;LEADER&#34; en el marco del Programa de

Convocatoria de las bases reguladoras para la concesión de ayudas del Ayuntamiento de Benacazón destinadas a emprendedores/as para la creación de empresas de trabajo autónomo en

Título Convocatoria que tiene por objeto promover la participación en el programa plan internacional de promoción, cofinanciado en un 50% por el Fondo Europeo de Desarrollo

Tam- bién debemos recordar que la probabilidad de transición de este estado al estado 1 es determinista (poi = 1)- Veamos un ejemplo para aclarar esto. Supongamos que tenemos

Vemos entonces que a pesar de no existir una correlación perfecta entre la cartografía (debido a las diferentes metodologías empleadas y al hecho de que el mapeo del índice de