5. Juegos diferenciales y ecuaciones
5.2. Los juegos
5.2.3. Existencia del valor para el juego
En esta secci´on demostraremos la existencia de un valor para el juego
tug of war discreto sin pagos intermedios.
Teorema 27. Sea U ⊂ Rd un dominio y 1 >> ε > 0 un n´umero fijo. Consideramos el juego tug of war con f = 0 y g acotada inferiormente (o superiormente) en ∂U una funci´on Lipschitz. Entonces uε1 = uε2 y por lo tanto el juego tiene un valor.
Demostraci´on. Si g est´a acotada por arriba y no por abajo hemos de consi- derar−g e intercambiar los papeles del juego entre ambos jugadores. As´ı po- demos restringirnos al caso g acotada inferiormente.
Tenemos que ver que uε
2 ≤ uε1. Adem´as el jugador 1 puede hacer que el
juego termine casi seguramente, pues siempre podemos extraer cadenas de caras (o cruces) de longitud arbitraria de lanzamientos al azar. Por lo tanto uε
1 ≥ ´ınfx∈∂Ug(x).
Sean x0, x1, ... las posiciones del juego en los distintos turnos y escribamos
uε= uε1. Consideramos ahora la oscilaci´on δ(x) = sup
y∈Bx(ε)
|uε(y)− uε(x)|. Definimos el conjunto
X0 ={x ∈ U : δ(x) ≥ δ(x0)} ∪ ∂U
y el ´ındice jn= m´axj≤nxj ∈ X0 que nos da el ´ultimo turno en el conjunto
X0. Sea vn= xjn la ´ultima posici´on en X0. X0 es el conjunto de los puntos
donde la funci´on oscila m´as que en el punto inicial. Del principio de programaci´on din´amica se tiene que 2uε(xn) = sup y∈Bxn(ε) uε(y)+ ´ınf y∈Bxn(ε) uε(y)⇔ ´ınf y∈Bxn(ε) |uε(xn)−uε(y)| = δ(xn),
y por lo tanto si los jugadores optan por las estrategias de maximizar (ju- gador 1) o minimizar (jugador 2) siempre la funci´on uε la funci´on δ no
ser´a decreciente porque tiene asegurada, al menos, la misma oscilaci´on que la posici´on previa. Entonces con las estrategias anteriores siempre jugaremos en X0.
Consideremos ahora la siguiente estrategia para el jugador 2: si vn6= xn,
i.e. no estamos en X0, entonces el jugador 2 se mover´a al punto y que
minimice la distancia entre xny X0. Cuando xn= vnel jugador 2 elegir´a la
nueva posici´on de manera que minimice uε. Para el jugador 1 consideramos
cualquier estrategia y veamos como evoluciona el juego. Hemos de decir que el jugador 2 no juega de forma muy inteligente, pues en X0 est´a la frontera,
5.2. LOS JUEGOS 85
favorable que el juego no acabe nunca, pues en ese caso su recompensa es uε2 =∞. Tambi´en hay que se˜nalar que esta estrategia es markoviana.
Sea d la distancia medida en pasos de longitud ε, entonces definimos dn= d(xn, vn)
considerando que debe pasar por todas las posiciones anteriores del juego y mn= uε(vn) + δ(x0)dn. Entonces uε(xn) = uε(vn) + (uε(xjn+1)− u ε(v n)) + (uε(xjn+2)− u ε(x jn+1)... + ...(uε(xn)− uε(xn−1) ≤ uε(vn) + n X k=jn+1 δ(xk) ≤ mn (porque no est´an en X0.) (5.3)
mn es una supermartingala. En efecto, supongamos que xn∈ X0 y que
el jugador 1 ha ganado el turno. Entonces hay dos posibilidades, que xn+1
est´e o que no est´e en X0.
Si xn+1∈ X0 entonces mn+1 = uε(vn+1)− uε(xn) + uε(xn)≤ uε(xn) + δ(xn) = mn+ δ(xn). Si xn+1 ∈ X/ 0 entonces mn+1 = uε(vn+1) + δ(x0)dn+1 ≤ uε(xn) + δ(xn) ≤ mn+ δ(xn).
Supongamos ahora xn ∈ X0 y que el jugador 2 ha ganado el turno. En
este caso
uε(xn+1) = uε(xn)− δ(xn) = uε(vn)− δ(xn)
y en el caso de que xn+1∈ X0 la igualdad anterior es
mn+1= mn− δ(xn)≤ mn− δ(x0).
Si xn+1 ∈ X/ 0 entonces se llega a una contradicci´on, pues
δ(xn)≥ δ(x0) > δ(xn+1)
y esto no puede darse por el principio de programaci´on din´amica, que ase- gura que la oscilaci´on en xn+1 (si elegimos el nuevo punto minimizando o
86 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES
Supongamos ahora que xn∈ X/ 0 y que juega el jugador 2. Por la estra-
tegia que hemos definido se tiene, si vn+16= xn+1, la desigualdad siguiente
mn+1 = uε(vn+1) + δ(x0)dn+1
≤ uε(vn+1) + δ(x0)d(vn+1, xn)− δ(x0)d(xn+1, xn)
≤ mn− δ(x0)
Si vn+1= xn+1 entonces
mn+1= uε(xn+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).
Consideremos el ´ultimo caso: xn∈ X/ 0 y juega el jugador 1.
Supongamos que el jugador 1 entra en X0. Entonces
mn+1= uε(un+1)±uε(xn)≤ uε(xn)+δ(xn)≤ mn+δ(x0) (por (5.3) y definici´on de X0).
Supongamos ahora que el jugador 1 no entra en X0. Entonces
mn+1 = uε(vn+1) + δ(x0)d(vn+1, xn+1)
≤ uε(vn) + δ(x0)d(vn, xn) + δ(x0)d(xn, xn+1)
≤ mn+ δ(x0).
Por todo lo anterior tenemos que si juega el jugador 2 se tiene mn+1≤ mn− δ(x0) y si juega el jugador 1 mn+1 ≤ mn+ δ(x0). Entonces E[mn+1|m0, m1...mn]≤ mn+ 1 2(δ(x0)− δ(x0)) = mn. (5.4) Entonces el teorema de convergencia de martingalas tenemos que, si τx0
es el tiempo que tarda el juego en acabar si empieza en x0, existe el l´ımite
l´ımn→∞mm´ın(n,τx0). De la existencia de este l´ımite y de que mn+1 ≤ mn−
δ(x0) se concluye que el juego debe acabar casi seguramente.
Entonces el pago esperado con esta estrategia para el jugador 2 es Ex0[u ε(x τx0)] = Ex0[ l´ım n→∞u ε(x m´ın(τx0,n))]
≤ Ex0[mm´ın(τx0,n))] (por (5.3) y el lema de Fatou)
≤ m0= uε(x0) por ser supermartingala
Al ser una estrategia particular es mejor que uε2 y por lo tanto se concluye que
5.2. LOS JUEGOS 87
La oscilaci´on podr´ıa ser cero, y nosotros siempre la tratamos como si fuese positiva. En este caso la estrategia del jugador 2 es avanzar en direcci´on a la frontera hasta llegar a alg´un punto, x′
0, con oscilaci´on no nula (pero tal
que uε(x0) = uε(x′0), momento en el que empieza a jugar seg´un la estrategia
definida m´as arriba.
Necesitamos ahora un teorema de convergencia al valor del juego conti- nuo.
Teorema 28. Consideremos un dominio acotado U y sea g (pago en la frontera) acotada inferiormente, y f = 0 (pago intermedio) o se satisfacen las tres condiciones siguientes:
´ınf|f| > 0
f es uniformemente continua.
Entonces el valor del juego continuo, u, existe y se cumple que
||u − uε||∞→ 0
cuando ε→ 0. Adem´as u es continua.
Y este valor del juego continuo es soluci´on del problema (5.1).
Teorema 29. Sea U ⊂ Rd un abierto acotado. Sea g definida en la frontera una funci´on Lipschitz y acotada inferiormente. Entonces u, el valor del juego continuo (con f = 0), es una extensi´on Lipschitz absolutamente minimizante de g. Si g es adem´as acotada entonces u es la ´unica soluci´on de (5.1).
5.2.4. ’Tug of war con ruido’
Definamos ahora el juego ’Tug of war con ruido’. En este caso el operador es el p-laplaciano. Sean U ⊂ Rd,x0 ∈ U y g como antes (f ahora es 0).
Sea tambi´en la medida de probabilidad, µ, uniforme en la esfera de radio r = p(d − 1)q/p (donde p−1+ q−1 = 1) en el hiperplano ortogonal a ~e1.
Consideraremos µ~v(S) = µ(Ψ−1(S)) donde Ψ(~v) = ~e1.2 En cada turno k se
lanza una moneda equilibrada que indica qu´e jugador mueve ese turno. El jugador que tenga el turno elige ~vk, de longitud menor o igual que ε. As´ı el
nuevo punto es xk = xk−1+ ~vk+ ~zk, donde ~zk es un vector aleatorio con
respecto a µ~vk. En el caso de estar a distancia de la frontera menor o igual a (1 + r)ε el jugador que tenga el turno tiene la obligaci´on de moverse hasta un punto de la frontera xk cumpliendo |xk− xk−1| ≤ (1 + r)ε, concluyendo
as´ı el juego.
As´ı tenemos una ’difusi´on dirigida’ y un ruido en el hiperplano ortogonal.
2Consultar [PS] para la demostraci´on de que nuestra probabilidad no depende de la
88 CAP´ITULO 5. JUEGOS DIFERENCIALES Y ECUACIONES
Definimos uε1(x) y uε2(x) como los resultados m´ınimos que los jugadores esperan recibir si el juego comienza en x0 = x. Cuando ambas coinciden
decimos que el juego tiene un valor.
Supongamos que el juego (discreto) tiene un valor, entonces el l´ımite puntual u(x) = l´ımε→0uε
1(x) es la funci´on que indica el resultado m´ınimo
que cada jugador espera si el juego (continuo) comienza en x0 = x.
La funci´on u(x) verifica
∆pu = 0, u|∂U = g (5.5)
Figura 5.3: Esquema del juego ’Tug of war’ con ruido.
Comentario 31 Demostrar que el juego (discreto) tiene un valor, pasar al l´ımite y ver que efectivamente son esos los operadores son resultados contenidos en diversos art´ıculos de investigaci´on. Para la demostraci´on de dichos teoremas se puede consultar [KS1], [KS2] y [PS].