• No se han encontrado resultados

Existencia del valor para el juego

5. Juegos diferenciales y ecuaciones

5.2. Los juegos

5.2.3. Existencia del valor para el juego

En esta secci´on demostraremos la existencia de un valor para el juego

tug of war discreto sin pagos intermedios.

Teorema 27. Sea U ⊂ Rd un dominio y 1 >> ε > 0 un n´umero fijo. Consideramos el juego tug of war con f = 0 y g acotada inferiormente (o superiormente) en ∂U una funci´on Lipschitz. Entonces uε1 = uε2 y por lo tanto el juego tiene un valor.

Demostraci´on. Si g est´a acotada por arriba y no por abajo hemos de consi- derar−g e intercambiar los papeles del juego entre ambos jugadores. As´ı po- demos restringirnos al caso g acotada inferiormente.

Tenemos que ver que uε

2 ≤ uε1. Adem´as el jugador 1 puede hacer que el

juego termine casi seguramente, pues siempre podemos extraer cadenas de caras (o cruces) de longitud arbitraria de lanzamientos al azar. Por lo tanto uε

1 ≥ ´ınfx∈∂Ug(x).

Sean x0, x1, ... las posiciones del juego en los distintos turnos y escribamos

uε= uε1. Consideramos ahora la oscilaci´on δ(x) = sup

y∈Bx(ε)

|uε(y)− uε(x)|. Definimos el conjunto

X0 ={x ∈ U : δ(x) ≥ δ(x0)} ∪ ∂U

y el ´ındice jn= m´axj≤nxj ∈ X0 que nos da el ´ultimo turno en el conjunto

X0. Sea vn= xjn la ´ultima posici´on en X0. X0 es el conjunto de los puntos

donde la funci´on oscila m´as que en el punto inicial. Del principio de programaci´on din´amica se tiene que 2uε(xn) = sup y∈Bxn(ε) uε(y)+ ´ınf y∈Bxn(ε) uε(y) ´ınf y∈Bxn(ε) |uε(xn)−uε(y)| = δ(xn),

y por lo tanto si los jugadores optan por las estrategias de maximizar (ju- gador 1) o minimizar (jugador 2) siempre la funci´on uε la funci´on δ no

ser´a decreciente porque tiene asegurada, al menos, la misma oscilaci´on que la posici´on previa. Entonces con las estrategias anteriores siempre jugaremos en X0.

Consideremos ahora la siguiente estrategia para el jugador 2: si vn6= xn,

i.e. no estamos en X0, entonces el jugador 2 se mover´a al punto y que

minimice la distancia entre xny X0. Cuando xn= vnel jugador 2 elegir´a la

nueva posici´on de manera que minimice uε. Para el jugador 1 consideramos

cualquier estrategia y veamos como evoluciona el juego. Hemos de decir que el jugador 2 no juega de forma muy inteligente, pues en X0 est´a la frontera,

5.2. LOS JUEGOS 85

favorable que el juego no acabe nunca, pues en ese caso su recompensa es uε2 =∞. Tambi´en hay que se˜nalar que esta estrategia es markoviana.

Sea d la distancia medida en pasos de longitud ε, entonces definimos dn= d(xn, vn)

considerando que debe pasar por todas las posiciones anteriores del juego y mn= uε(vn) + δ(x0)dn. Entonces uε(xn) = uε(vn) + (uε(xjn+1)− u ε(v n)) + (uε(xjn+2)− u ε(x jn+1)... + ...(uε(xn)− uε(xn−1) ≤ uε(vn) + n X k=jn+1 δ(xk) ≤ mn (porque no est´an en X0.) (5.3)

mn es una supermartingala. En efecto, supongamos que xn∈ X0 y que

el jugador 1 ha ganado el turno. Entonces hay dos posibilidades, que xn+1

est´e o que no est´e en X0.

Si xn+1∈ X0 entonces mn+1 = uε(vn+1)− uε(xn) + uε(xn)≤ uε(xn) + δ(xn) = mn+ δ(xn). Si xn+1 ∈ X/ 0 entonces mn+1 = uε(vn+1) + δ(x0)dn+1 ≤ uε(xn) + δ(xn) ≤ mn+ δ(xn).

Supongamos ahora xn ∈ X0 y que el jugador 2 ha ganado el turno. En

este caso

uε(xn+1) = uε(xn)− δ(xn) = uε(vn)− δ(xn)

y en el caso de que xn+1∈ X0 la igualdad anterior es

mn+1= mn− δ(xn)≤ mn− δ(x0).

Si xn+1 ∈ X/ 0 entonces se llega a una contradicci´on, pues

δ(xn)≥ δ(x0) > δ(xn+1)

y esto no puede darse por el principio de programaci´on din´amica, que ase- gura que la oscilaci´on en xn+1 (si elegimos el nuevo punto minimizando o

86 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES

Supongamos ahora que xn∈ X/ 0 y que juega el jugador 2. Por la estra-

tegia que hemos definido se tiene, si vn+16= xn+1, la desigualdad siguiente

mn+1 = uε(vn+1) + δ(x0)dn+1

≤ uε(vn+1) + δ(x0)d(vn+1, xn)− δ(x0)d(xn+1, xn)

≤ mn− δ(x0)

Si vn+1= xn+1 entonces

mn+1= uε(xn+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).

Consideremos el ´ultimo caso: xn∈ X/ 0 y juega el jugador 1.

Supongamos que el jugador 1 entra en X0. Entonces

mn+1= uε(un+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).

Supongamos ahora que el jugador 1 no entra en X0. Entonces

mn+1 = uε(vn+1) + δ(x0)d(vn+1, xn+1)

≤ uε(vn) + δ(x0)d(vn, xn) + δ(x0)d(xn, xn+1)

≤ mn+ δ(x0).

Por todo lo anterior tenemos que si juega el jugador 2 se tiene mn+1≤ mn− δ(x0) y si juega el jugador 1 mn+1 ≤ mn+ δ(x0). Entonces E[mn+1|m0, m1...mn]≤ mn+ 1 2(δ(x0)− δ(x0)) = mn. (5.4) Entonces el teorema de convergencia de martingalas tenemos que, si τx0

es el tiempo que tarda el juego en acabar si empieza en x0, existe el l´ımite

l´ımn→∞mm´ın(n,τx0). De la existencia de este l´ımite y de que mn+1 ≤ mn−

δ(x0) se concluye que el juego debe acabar casi seguramente.

Entonces el pago esperado con esta estrategia para el jugador 2 es Ex0[u ε(x τx0)] = Ex0[ l´ım n→∞u ε(x m´ın(τx0,n))]

≤ Ex0[mm´ın(τx0,n))] (por (5.3) y el lema de Fatou)

≤ m0= uε(x0) por ser supermartingala

Al ser una estrategia particular es mejor que uε2 y por lo tanto se concluye que

5.2. LOS JUEGOS 87

La oscilaci´on podr´ıa ser cero, y nosotros siempre la tratamos como si fuese positiva. En este caso la estrategia del jugador 2 es avanzar en direcci´on a la frontera hasta llegar a alg´un punto, x′

0, con oscilaci´on no nula (pero tal

que uε(x0) = uε(x′0), momento en el que empieza a jugar seg´un la estrategia

definida m´as arriba.

Necesitamos ahora un teorema de convergencia al valor del juego conti- nuo.

Teorema 28. Consideremos un dominio acotado U y sea g (pago en la frontera) acotada inferiormente, y f = 0 (pago intermedio) o se satisfacen las tres condiciones siguientes:

´ınf|f| > 0

f es uniformemente continua.

Entonces el valor del juego continuo, u, existe y se cumple que

||u − uε||∞→ 0

cuando ε→ 0. Adem´as u es continua.

Y este valor del juego continuo es soluci´on del problema (5.1).

Teorema 29. Sea U ⊂ Rd un abierto acotado. Sea g definida en la frontera una funci´on Lipschitz y acotada inferiormente. Entonces u, el valor del juego continuo (con f = 0), es una extensi´on Lipschitz absolutamente minimizante de g. Si g es adem´as acotada entonces u es la ´unica soluci´on de (5.1).

5.2.4. ’Tug of war con ruido’

Definamos ahora el juego ’Tug of war con ruido’. En este caso el operador es el p-laplaciano. Sean U ⊂ Rd,x0 ∈ U y g como antes (f ahora es 0).

Sea tambi´en la medida de probabilidad, µ, uniforme en la esfera de radio r = p(d − 1)q/p (donde p−1+ q−1 = 1) en el hiperplano ortogonal a ~e1.

Consideraremos µ~v(S) = µ(Ψ−1(S)) donde Ψ(~v) = ~e1.2 En cada turno k se

lanza una moneda equilibrada que indica qu´e jugador mueve ese turno. El jugador que tenga el turno elige ~vk, de longitud menor o igual que ε. As´ı el

nuevo punto es xk = xk−1+ ~vk+ ~zk, donde ~zk es un vector aleatorio con

respecto a µ~vk. En el caso de estar a distancia de la frontera menor o igual a (1 + r)ε el jugador que tenga el turno tiene la obligaci´on de moverse hasta un punto de la frontera xk cumpliendo |xk− xk−1| ≤ (1 + r)ε, concluyendo

as´ı el juego.

As´ı tenemos una ’difusi´on dirigida’ y un ruido en el hiperplano ortogonal.

2Consultar [PS] para la demostraci´on de que nuestra probabilidad no depende de la

88 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES

Definimos uε1(x) y uε2(x) como los resultados m´ınimos que los jugadores esperan recibir si el juego comienza en x0 = x. Cuando ambas coinciden

decimos que el juego tiene un valor.

Supongamos que el juego (discreto) tiene un valor, entonces el l´ımite puntual u(x) = l´ımε→0

1(x) es la funci´on que indica el resultado m´ınimo

que cada jugador espera si el juego (continuo) comienza en x0 = x.

La funci´on u(x) verifica

∆pu = 0, u|∂U = g (5.5)

Figura 5.3: Esquema del juego ’Tug of war’ con ruido.

Comentario 31 Demostrar que el juego (discreto) tiene un valor, pasar al l´ımite y ver que efectivamente son esos los operadores son resultados contenidos en diversos art´ıculos de investigaci´on. Para la demostraci´on de dichos teoremas se puede consultar [KS1], [KS2] y [PS].

Documento similar