Existencia del valor para el juego

5. Juegos diferenciales y ecuaciones

5.2. Los juegos

5.2.3. Existencia del valor para el juego

En esta secci´on demostraremos la existencia de un valor para el juego

tug of war discreto sin pagos intermedios.

Teorema 27. Sea U _{⊂ R}d un dominio y 1 >> ε > 0 un n´umero fijo. Consideramos el juego tug of war con f = 0 y g acotada inferiormente (o superiormente) en ∂U una funci´on Lipschitz. Entonces uε₁ = uε₂ y por lo tanto el juego tiene un valor.

Demostraci´on. Si g est´a acotada por arriba y no por abajo hemos de consi- derar−g e intercambiar los papeles del juego entre ambos jugadores. As´ı podemos restringirnos al caso g acotada inferiormente.

Tenemos que ver que uε

2 ≤ uε1. Adem´as el jugador 1 puede hacer que el

juego termine casi seguramente, pues siempre podemos extraer cadenas de caras (o cruces) de longitud arbitraria de lanzamientos al azar. Por lo tanto uε

1 ≥ ´ınfx∈∂Ug(x).

Sean x0, x1, ... las posiciones del juego en los distintos turnos y escribamos

uε= uε₁. Consideramos ahora la oscilaci´on δ(x) = sup

y∈Bx(ε)

|uε(y)_{− u}ε(x)_|. Definimos el conjunto

X0 ={x ∈ U : δ(x) ≥ δ(x0)} ∪ ∂U

y el ´ındice jn= m´axj≤nxj ∈ X0 que nos da el ´ultimo turno en el conjunto

X0. Sea vn= xjn la ´ultima posici´on en X0. X0 es el conjunto de los puntos

donde la función oscila más que en el punto inicial. Del principio de programación dinámica se tiene que 2uε(xn) = sup y∈Bxn(ε) uε(y)+ ´ınf y∈Bxn(ε) uε(y)_⇔ ´ınf y∈Bxn(ε) |uε(xn)−uε(y)| = δ(xn),

y por lo tanto si los jugadores optan por las estrategias de maximizar (jugador 1) o minimizar (jugador 2) siempre la funci´on uε _{la funci´}_{on δ no}

será decreciente porque tiene asegurada, al menos, la misma oscilación que la posición previa. Entonces con las estrategias anteriores siempre jugaremos en X0.

Consideremos ahora la siguiente estrategia para el jugador 2: si vn6= xn,

i.e. no estamos en X0, entonces el jugador 2 se mover´a al punto y que

minimice la distancia entre xny X0. Cuando xn= vnel jugador 2 elegir´a la

nueva posici´on de manera que minimice uε_{. Para el jugador 1 consideramos}

cualquier estrategia y veamos como evoluciona el juego. Hemos de decir que el jugador 2 no juega de forma muy inteligente, pues en X0 est´a la frontera,

5.2. LOS JUEGOS ₈₅

favorable que el juego no acabe nunca, pues en ese caso su recompensa es uε₂ =∞. Tambi´en hay que se˜nalar que esta estrategia es markoviana.

Sea d la distancia medida en pasos de longitud ε, entonces definimos dn= d(xn, vn)

considerando que debe pasar por todas las posiciones anteriores del juego y mn= uε(vn) + δ(x0)dn. Entonces uε(xn) = uε(vn) + (uε(xjn+1)− u ε_(v n)) + (uε(xjn+2)− u ε_(x jn+1)... + ...(uε(xn)− uε(xn−1) ≤ uε(vn) + n X k=jn+1 δ(xk) ≤ mn (porque no est´an en X0.) (5.3)

mn es una supermartingala. En efecto, supongamos que xn∈ X0 y que

el jugador 1 ha ganado el turno. Entonces hay dos posibilidades, que xn+1

est´e o que no est´e en X0.

Si xn+1∈ X0 entonces mn+1 = uε(vn+1)− uε(xn) + uε(xn)≤ uε(xn) + δ(xn) = mn+ δ(xn). Si xn+1 ∈ X/ 0 entonces mn+1 = uε(vn+1) + δ(x0)dn+1 ≤ uε(xn) + δ(xn) ≤ mn+ δ(xn).

Supongamos ahora xn ∈ X0 y que el jugador 2 ha ganado el turno. En

este caso

uε(xn+1) = uε(xn)− δ(xn) = uε(vn)− δ(xn)

y en el caso de que xn+1∈ X0 la igualdad anterior es

mn+1= mn− δ(xn)≤ mn− δ(x0).

Si xn+1 ∈ X/ 0 entonces se llega a una contradicci´on, pues

δ(xn)≥ δ(x0) > δ(xn+1)

y esto no puede darse por el principio de programación dinámica, que ase- gura que la oscilación en xn+1 (si elegimos el nuevo punto minimizando o

86 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES

Supongamos ahora que xn∈ X/ 0 y que juega el jugador 2. Por la estra-

tegia que hemos definido se tiene, si vn+16= xn+1, la desigualdad siguiente

mn+1 = uε(vn+1) + δ(x0)dn+1

≤ uε(vn+1) + δ(x0)d(vn+1, xn)− δ(x0)d(xn+1, xn)

≤ mn− δ(x0)

Si vn+1= xn+1 entonces

mn+1= uε(xn+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).

Consideremos el ´ultimo caso: xn∈ X/ 0 y juega el jugador 1.

Supongamos que el jugador 1 entra en X0. Entonces

mn+1= uε(un+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).

Supongamos ahora que el jugador 1 no entra en X0. Entonces

mn+1 = uε(vn+1) + δ(x0)d(vn+1, xn+1)

≤ uε(vn) + δ(x0)d(vn, xn) + δ(x0)d(xn, xn+1)

≤ mn+ δ(x0).

Por todo lo anterior tenemos que si juega el jugador 2 se tiene mn+1≤ mn− δ(x0) y si juega el jugador 1 mn+1 ≤ mn+ δ(x0). Entonces E[mn+1|m0, m1...mn]≤ mn+ 1 2(δ(x0)− δ(x0)) = mn. (5.4) Entonces el teorema de convergencia de martingalas tenemos que, si τx0

es el tiempo que tarda el juego en acabar si empieza en x0, existe el l´ımite

l´ım_n→∞m_m´ın(n,τ_x0₎. De la existencia de este l´ımite y de que mn+1 ≤ mn−

δ(x0) se concluye que el juego debe acabar casi seguramente.

Entonces el pago esperado con esta estrategia para el jugador 2 es Ex0[u ε_(x τ_x0)] = Ex0[ l´ım n→∞u ε_(x m´ın(τ_x0,n))]

≤ Ex0[mm´ın(τ_x0,n))] (por (5.3) y el lema de Fatou)

≤ m0= uε(x0) por ser supermartingala

Al ser una estrategia particular es mejor que uε₂ y por lo tanto se concluye que

5.2. LOS JUEGOS ₈₇

La oscilación podr´ıa ser cero, y nosotros siempre la tratamos como si fuese positiva. En este caso la estrategia del jugador 2 es avanzar en dirección a la frontera hasta llegar a algún punto, x′

0, con oscilaci´on no nula (pero tal

que uε(x0) = uε(x′0), momento en el que empieza a jugar seg´un la estrategia

definida m´as arriba.

Necesitamos ahora un teorema de convergencia al valor del juego continuo.

Teorema 28. Consideremos un dominio acotado U y sea g (pago en la frontera) acotada inferiormente, y f = 0 (pago intermedio) o se satisfacen las tres condiciones siguientes:

´ınf_{|f| > 0}

f es uniformemente continua.

Entonces el valor del juego continuo, u, existe y se cumple que

||u − uε||∞→ 0

cuando ε_{→ 0. Adem´as u es continua.}

Y este valor del juego continuo es soluci´on del problema (5.1).

Teorema 29. Sea U _{⊂ R}d un abierto acotado. Sea g definida en la frontera una función Lipschitz y acotada inferiormente. Entonces u, el valor del juego continuo (con f = 0), es una extensión Lipschitz absolutamente minimizante de g. Si g es además acotada entonces u es la única solución de (5.1).

5.2.4. ’Tug of war con ruido’

Definamos ahora el juego ’Tug of war con ruido’. En este caso el operador es el p-laplaciano. Sean U _{⊂ R}d,x0 ∈ U y g como antes (f ahora es 0).

Sea tambi´en la medida de probabilidad, µ, uniforme en la esfera de radio r = p(d − 1)q/p (donde p−1+ q−1 = 1) en el hiperplano ortogonal a ~e1.

Consideraremos µ~v(S) = µ(Ψ−1(S)) donde Ψ(~v) = ~e1.2 En cada turno k se

lanza una moneda equilibrada que indica qu´e jugador mueve ese turno. El jugador que tenga el turno elige ~vk, de longitud menor o igual que ε. As´ı el

nuevo punto es xk = xk−1+ ~vk+ ~zk, donde ~zk es un vector aleatorio con

respecto a µ_~_v_k. En el caso de estar a distancia de la frontera menor o igual a (1 + r)ε el jugador que tenga el turno tiene la obligaci´on de moverse hasta un punto de la frontera xk cumpliendo |xk− xk−1| ≤ (1 + r)ε, concluyendo

as´ı el juego.

As´ı tenemos una ’difusi´on dirigida’ y un ruido en el hiperplano ortogonal.

2_{Consultar [PS] para la demostraci´}_{on de que nuestra probabilidad no depende de la}

88 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES

Definimos uε₁(x) y uε₂(x) como los resultados m´ınimos que los jugadores esperan recibir si el juego comienza en x0 = x. Cuando ambas coinciden

decimos que el juego tiene un valor.

Supongamos que el juego (discreto) tiene un valor, entonces el l´ımite puntual u(x) = l´ım_ε→0uε

1(x) es la funci´on que indica el resultado m´ınimo

que cada jugador espera si el juego (continuo) comienza en x0 = x.

La funci´on u(x) verifica

∆pu = 0, u|∂U = g (5.5)

Figura 5.3: Esquema del juego ’Tug of war’ con ruido.

Comentario 31 Demostrar que el juego (discreto) tiene un valor, pasar al l´ımite y ver que efectivamente son esos los operadores son resultados contenidos en diversos art´ıculos de investigaci´on. Para la demostraci´on de dichos teoremas se puede consultar [KS1], [KS2] y [PS].

In document Sobre algunas relaciones entre la probabilidad y las ecuaciones diferenciales (página 84-88)