Lógicas no clásicas:
Juegos y lógica dinámica
Pedro Arturo Góngora Luna
[email protected]
1. Juegos
1.1. Introducción
Algunos autores definen un juego como la interacción estratégica de dos o más agentes. Dicha interacción estratégica incluye, desde luego, juegos recreativos como el póquer y el ajedrez, donde los agentes son personas (o programas de computadora). Sin embargo, el tratamiento que se le da a un juego es suficientemente abstracto para comprender otras aplicaciones. Los agentes de un juego pueden ser cualquier entidad capaz de tomar decisiones racionales, por ejemplo, corporaciones o mesas directivas decidiendo su estrategia en una batalla de precios o su oferta en una licitación pública, y hasta individuos de una población de insectos1.
Debido al número creciente de aplicaciones que ha tenido la teoría de juegos en los últimos años, se han propuesto trabajos en otras áreas aparentemente sin relación. Aquí vamos a revisar el trabajo propuesto en [1], donde se modelan algunos aspectos de un juego usando lógica modal. Para esto, nos vamos a concentrar en una clase muy particular de juegos:los juegos secuenciales, finitos y con información perfecta y completa.
Por juego secuencial entendemos que las acciones que realizan los agentes suceden una después de otra, y no simultáneamente. Por finito entendemos que, además de que las posibles secuencias de acciones siempre son finitas, en cada momento un agente sólo puede elegir una acción de un conjunto finito de éstas. Por información perfecta y completa entendemos que todos los agentes siempre tienen acceso al estado en que se encuentra el juego (historia, decisiones tomadas por otros agentes) y que conocen las preferencias de cada agente (saben qué ganancia obtendría cada uno como resultado de cualquier secuencia de acciones).
Desde luego aquí no podemos dar una introducción ni mínimamente detallada a la teoría de juegos, la forma de trabajo será mediante un ejemplo. Pero, si estás interesado, puedes encontrar introducciones muy accesibles en los libros [3, 4] (disponibles en la biblioteca de la facultad). También, si te interesa saber más de este tema puedes consultar [2].
1Una decisión racional es aquella que busca maximizar la utilidad o ganancia de un agente, en este sentido,
1.2. Árboles y juegos extensivos
Existen dos posibles formas de representar un juego: laforma normal o estratégicay la
forma extensiva. La forma normal es más abstracta, se basa en matrices que sólo muestran el resultado final del juego. La forma extensiva es menos abstracta, se representan los juegos como árboles cuyos nodos son los turnos de los jugadores, los arcos sus acciones posibles en ese momento, y las hojas los posibles resultados del juego.
Podríamos tomar un juego como ajedrez o gato para ejemplificar (ambos cumplen las características de secuencialidad, finitud y son de información perfecta y completa), pero sus árboles son muy grandes, incluso el del gato. En lugar de éstos vamos a concentrarnos en un modelode juguete: el ``dilema del prisionero''.
El dilema del prisionero no es estrictamente secuencial, pero puede analizarse como si lo fuera, sin afectar el resultado. Básicamente, dice así:
La policía captura a una pareja cómplice de criminales, pero no tiene información suficiente para condenarlos por todos sus delitos. Al interrogarlos por separado, les pide que traicionen a su compañero. Los resultados son los siguientes: Si ninguno traiciona al compañero (i.e., cooperan entre ellos) se les condena a 1 año de cárcel a cada uno. Si sólo uno traiciona, éste sale libre y al otro se le condena a 10 años de cárcel. Si ambos se traicionan, entonces se les dan 5 años a cada uno.
Podemos construir un árbol de juego de inmediato:
w0 tA q yjjjjjjjjjjjj jjjjjj jjjjjjjjjjjj jjjjjj cA ) ) T T T T T T T T T T T T T T T T T T w1 tB w xxxxxx xx xxxxxx xx c B " " F F F F F F F F w2 tB xxxxxxx xx xxxxxx xx c B # # F F F F F F F F w3 (−5,−5) w4 (0,−10) w5 (−10,0) w6 (−1,−1) La descripción es la siguiente:
Tenemos dos agentes o jugadores,AyB.
En la raíz del árbol (w0) es el turno deA, en el siguiente nivel (w1yw2) es el turno de
B.
En cada estado no final, el jugador i en turno tiene dos posibles acciones: ti para
traicionar al compañero o ci para cooperar. A estas acciones se les conoce como las
estrategiasdei.
En las hojas (w3 w6) tenemos lautilidadde cada agente. Por ejemplo, si la secuencia
de acciones es tA,cB (i.e., el juego termina en w4), para el jugador Ala utilidad es 0
(no se le condena a cárcel), pero para el jugador B la utilidad es de −10, pues se le
1.3. Soluciones y equilibrio
Si fueras el jugadorA, ¾cuál sería la estrategia racional a seguir?. Con el árbol de juego
podemos hacer el siguiente razonamiento:
Si elijo tA, entonces enw1 B tiene la opción detB ócB. SiB eligetB obtendría una
utilidad de−5, si eligecBtendría utilidad de−10. Por lo tantoBseguramente decidirá
tB, pues−5>−10, y mi utilidad por elegirtAsería−5.
Si elijo cA, entonces enw2 B tiene la opción detB ócB. SiB eligetB obtendría una
utilidad de 0, si elige cB tendría utilidad de −1. Por lo tantoB seguramente decidirá
tB, pues0>−1, y mi utilidad por elegircAsería−10.
Si mi utilidad por jugartAes−5y por jugarcAes−10, entoncesla elección racional
estA.
Intercambiando los turnos podemos hacer el mismo razonamiento desde el punto de vista deB, y veríamos que el resultado estB. Así que hemosresueltoel juego: encontramos una
tupla de estrategias (i.e., unperfil de estrategias), una para cada jugador, y encontramos que la mejor respuesta de cada jugador a ese perfil es también la estrategia que se dicta ahí mismo. En general, unperfil de estrategiases una función que asigna a cada nodo no final, una acción a realizar. En el árbol del dilema del prisionero, el perfil está señalado con líneas dobles. Nota que el nodow2 no es accesible si se sigue el perfil desde el nodo inicial, pero,
aún así, la definición de perfil requiere que se le asigne una acción.
Un perfil es unequilibrio de Nashsii para todo agentei, las estrategias contenidas en ese
perfil representan la mejor respuesta parai, suponiendo que los demás agentes sólo seguirán
las estrategias determinadas por el perfil. En este sentido, el perfil dado por las estrategiastA
ytB (en el árbol representado con líneas dobles) es un equilibrio de Nash.
2. Codificación en PDL
2.1. Modelo
La codificación propuesta por Harrenstein et al es muy sencilla, básicamente construimos un marco a partir de un árbol de juego. En el caso del dilema del prisionero, tenemos el siguiente árbol: w0 aA,σ v v mmmmmmmm mmmmmmm aA ( ( Q Q Q Q Q Q Q Q Q Q Q Q Q Q Q w1 aB,σ } } zzzzzz zz aB ! ! D D D D D D D D w2 aB,σ } } zzzzzz zz aB ! ! D D D D D D D D w3 w4 w5 w6 La descripción es la siguiente:
Tenemos un programa atómicoai para cada agentei. De esta forma, un estadowestá
relacionado con otrow0 por el programaaisii el agenteitiene una estrategia que lleva
el juego dewaw0.
Tenemos un programaσ para cada perfil de estrategia que queramos analizar. En este
casoσrepresenta el perfil que elige siempre traicionar.
Tenemos un programa atómicoipara cada agentei. El programairelaciona un estado w conw0 sii la utilidad del agentei en el estadio wes menor o igual a su utilidad en
el estadow0. En el árbol anterior omitimos estas relaciones para no saturarlo de líneas
(tendríamos, por ejemplo, un arcow3
A
→w4, o un arcow4
B
→w3).
2.2. Mejor respuesta y equilibrio
Ahora, considera el siguiente programa:
π(σ,{i1, . . . , ik})
def
= whilehσi>do(ai1 ∪ · · · ∪aik ∪σ) donde{i1, . . . , ik}es cualquier conjunto de agentes.
Particularmente nos interesan dos instancias del programa anterior:
π(σ,{i}) =while hσi>do(ai ∪σ)
π(σ,∅) =while hσi>doσ
El programaπ(σ,{i})representa los posibles resultados que puede forzar el agentei, si
suponemos que los demás agentes siguen el perfil σ. Por ejemplo, para A tenemos que si
empezamos enw0, los posibles resultados sonw3 yw5, y paraB los posibles resultados son
w3 yw4.
El programaπ(σ,∅)representa el resultado en dondetodoslos agentes siguen el perfilσ.
En nuestro ejemplo tenemos que si empezamos enw0, el único resultado posible esw5.
También, considera el siguiente teorema.
Teorema 2.1. SeanF un marco,wun mundo posible deF, yϕcualquier fórmula. Entonces,
la afirmación:
F, w|=hai[b]ϕ⇒[c]ϕ
(i.e., la fórmula es válida en w enF) se cumple sii para todo w0 y w00: si (w, w0) ∈ JaK y
(w, w00)∈JcK, entonces(w0, w00)∈JbK.
Utilizando el teorema anterior podemos caracterizar si un perfil es la mejor respuesta para un agente:
F, w0 |=hπ(σ,{i})i[i]ϕ⇒[π(σ,∅)]ϕ
Esto es, σrepresenta la mejor respuesta paraisii la fórmula anterior es válida en w0 en
F (el árbol de juego), que, a su vez, es cierto sii toda posible salida forzada pories menor o
Finalmente, tenemos que si lo anterior se cumple para todos los agentes, entoncesσes un
equilibrio de Nash.
De nuestro ejemplo, tenemos que para el jugadorAy el perfil de estrategiasσ:
{(w0, w3),(w0, w5)} ⊆Jπ(σ,{A})K
{(w0, w3)} ⊆Jπ(σ,∅)K
{(w3, w3),(w5, w3)} ⊆JAK
F, w0 |=hπ(σ,{A})i[A]ϕ⇒[π(σ,∅)]ϕ
Por lo tanto, por el teorema anteriorσrepresenta una mejor respuesta paraA.
También, aplicando el mismo análisis (ejercicio) para el agenteB, obtenemos que también
es una mejor respuesta. Entonces,σes un equilibrio de Nash.
Referencias
[1] Paul Harrenstein, Wiebe van der Hoek, John Jules Meyer & Cees Witte-veen. On Modal Logic Interpretations of Games. En ECAI 2002. Online:
http://www.harrenstein.nl/Publications.dir/E0197.pdf
[2] Wiebe van der Hoek & Marc Pauly.Modal Logic for games and information. Online:
http://www.csc.liv.ac.uk/ frank/MLHandbook/20.pdf
[3] Ken Binmore.Fun and games : a text on game theory. 1991. D.C. Heath. [4] Morton Davis.Introducción a la teoría de juegos. 1986. Alianza.