Exposición formal del concepto de “juego” y presentación del DP

2. Definiciones y método de la investigación

2.1. Definiciones operacionales

2.1.4. Exposición formal del concepto de “juego” y presentación del DP

La primera caracterización formal de lo que es un juego se encuentra en Theory of Games

and Economic Behaviour99_{. Después de Von Neumann y Morgenstern han seguido incontables} precisiones y depuraciones, o simplemente exposiciones más accesibles del concepto de “juego”, entre las que podemos destacar Games and Decisions de Luce y Raiffa, Choices de Resnik o

Fun and Games de Binmore. Estas introducciones son ya clásicas, pero en esta ocasión me

valdré del esbozo que Rapoport presenta en la introducción de Game Theory as a Theory of

Conflict Resolution. Entiendo que esta exposición está especialmente bien condensada y carece

de cualquier oscuridad que la notación matemática puede suscitar en ocasiones100_{. Obsérvese que} su definición de lo que es un juego viene también dada por referencia al conflicto, aunque ya habíamos advertido en 1.1.1 y tendremos pronto ocasión de volver a constatar que puede haber juegos sin conflicto de intereses, o por lo menos sin un conflicto completo. En el segundo párrafo hay dos condiciones propias de la teoría de juegos clásica, y que también merecen un comentario:

La teoría de juegos puede definirse formalmente como una teoría de la decisión racional en situaciones de conflicto. Los modelos de tales situaciones [juegos], tal como son concebidos en la teoría de juegos, consisten en 1) un conjunto de decisores, llamados jugadores; (2) un conjunto de

estrategias disponibles para cada jugador; (3) un conjunto de resultados, cada uno de los cuales es

producto de las elecciones particulares que cada jugador hace de sus estrategias en una cierta jugada [play] del juego; y (4) un conjunto de pagos asignado a cada jugador en cada uno de los posibles resultados.

Se supone que cada jugador es “individualmente racional”, en el sentido de que su orden de preferencias sobre los resultados está determinado por el orden de magnitudes de sus pagos asociados (y sólo de los suyos). Además, un jugador es racional en el sentido de que asume que cada uno de los demás jugadores también es racional en el sentido arriba indicado. Al escoger su estrategia, el jugador racional tiene en cuenta el conocimiento de los pagos del otro jugador, pues esto le da información acerca de cómo son tomadas las decisiones del otro.101

Para evitar confusiones, es necesario hacer cuatro puntualizaciones (las dos primeras puramente terminológicas) sobre estos dos párrafos:

99_{Cfr. von Neumann y Morgenstern, 1947, pp. 49 – 51, 55 – 60.}

100_{Evidentemente, cuanto mayor sea la formación matemática del lector, el rigor que proporciona la notación}

matemática contribuye por el contrario a la claridad de la exposición. Pero creo más conveniente en este momento expresar estos conceptos en el lenguaje más natural posible, evitando a la vez cualquier tipo de ambigüedad. Como queda dicho, quien esté ya familiarizado con estas nociones básicas puede prescindir de este epígrafe, o puede encontrar definiciones más detalladas en los libros anteriormente mencionados.

1) En la literatura especializada se encuentra en ocasiones el término “agente” como sinónimo (aproximado) de “jugador”. Salvo que indique lo contrario, usaré ambos términos indistintamente.

2) Tal como queda especificado en la cita, se entiende normalmente por “estrategia” un curso de acción, como por ejemplo: elegir pares o nones, atacar al enemigo hoy mismo

o esperar hasta mañana, invertir o no en una lotería, etc.102_{Sin embargo, la influyente} propuesta de Gauthier en La moral por acuerdo hace necesario ampliar este concepto. Siguiendo su idea de que la elección racional recae sobre disposiciones y no sólo sobre acciones puntuales, entenderemos que una estrategia es, no ya un curso de acción, sino una regla para, a su vez, escoger acciones. Esta regla, que en Gauthier son las disposiciones, toman la forma de conjuntos de instrucciones (algoritmos) en los agentes artificiales que protagonizan las simulaciones.

3) La primera condición impuesta en el segundo párrafo, que el orden de preferencias

sobre los resultados esté determinado sólo por los pagos propios, es precisamente parte de ese marco estrecho que siguiendo a Danielson proponíamos ampliar en el apartado anterior. La he incluido en el texto para destacar lo que incluye (y lo que no) el concepto clásico de “juego”.

4) La segunda condición del segundo párrafo, que la racionalidad de los jugadores sea conocimiento común de todos, es un postulado que Harsanyi103_{considera fundamental} pero que al adquirir la teoría de juegos un enfoque evolutivo ya no es imprescindible conservar. Por otra parte, según tendremos ocasión de ver en el capítulo 4.4, este conocimiento común de la racionalidad no garantiza que siempre se alcancen resultados que consideraríamos óptimos, incluso si no hay conflicto de intereses104_{. Las diferencias} resultantes de contar o no con este supuesto quedarán también de manifiesto en el capítulo 4.7, cuando analicemos el juego conocido como “caza del venado”, según lo presenta Skyrms en Stag Hunt.

102_{Una definición canónica la tenemos por ejemplo en Resnik: “una estrategia es un plan que determina las}

elecciones de un agente bajo todas las circunstancias relevantes” (cfr. Resnik, 1987, p. 18). Es decir, una estrategia

predetermina una acción para cada posible movimiento del otro jugador (o jugadores). Según anticipé en 1.2.4, el

planteamiento clásico de von Neumann y Morgenstern es que, aunque en un juego los movimientos de los jugadores sean sucesivos, se puede diseñar por anticipado una estrategia, como plan, que especifique de antemano y de una

sola vez, qué hará un jugador como respuesta a cada posible movimiento del otro, en cada punto del desarrollo del

juego. Véase también Luce y Raiffa, 1957, p. 51. Además cabe trazar la importante distinción entre estrategias puras y estrategias mixtas, de la cual me ocuparé en 4.2.1, cuando llevemos el juego del Gallina a una simulación.

103_{Lo cuenta entre los llamados “postulados débiles de la racionalidad”. Cfr. Harsanyi, 1961, p. 179}

104_{Esto será parte, precisamente, del problema de la selección de equilibrios, para cuya resolución es necesario}

especificar más en qué consiste esa racionalidad que ambos jugadores suponen el uno en el otro. En el capítulo 4.4, en relación con ciertos problemas generados en juegos de negociación, veremos que la sola definición de racionalidad como “maximización de la utilidad esperada” no alcanza para determinar una solución única.

Ahora procederé a ejemplificar cómo se entrelazan todos estos conceptos presentando el conocido dilema del prisionero. La estructura de la situación que presenta puede encontrarse en diversos tipos de interacción social, o incluso en contextos donde no intervienen agentes racionales. En la literatura aparece frecuentemente emparentado con “la tragedia de los comunes”105_{, que viene a ser la versión colectiva del mismo problema; pero en su forma más} conocida, con sólo dos jugadores, fue propuesto hacia 1950 por M. Flood y M. Dresher, y formalizado poco después por A. W. Tucker106_{. Pasemos por fin a contar la historia, cuyas} narraciones son tan variadas como los autores que han prestado su atención al dilema. En este caso me valdré de la versión de Gauthier, tal como aparece en la traducción española de Morals

by Agreement (incluiré entre corchetes los diversos elementos de la situación en los términos

técnicos propios de la teoría de juegos).

Fred y Ed [los jugadores] cometieron un grave delito (la fiscal del distrito no tiene dudas al respecto), pero parte de la prueba necesaria para asegurar una condena es, desgraciadamente, inadmisible en el tribunal [...]. Con todo ha logrado encerrar a Fred y a Ed y mantenerlos incomunicados entre sí107_{. Ella los ha acusado de cargos que, aunque menores, siguen siendo} graves y la fiscal confía en poder obtener su condena por éstos. Los visita entonces por separado y a ambos les hace el mismo cuento y la misma proposición: “Confiese que se ha descarriado y el crimen que cometió” [estrategia “confesar”], le dice a cada uno, “y si su antiguo socio no confiesa, yo convenceré al jurado de que usted es un hombre reformado y su ex socio la encarnación del mal; el juez lo sentenciará a usted a un año de prisión [pago T = 1] y a él a diez [pago S = 10]. Si usted no confiesa [estrategia “callar”] y su antiguo socio lo hace, ya puede usted imaginar cuál será su destino. Y si ninguno de ustedes decide confesar, propondré que los condenen a ambos a dos años de prisión” [pago R = 2]. “Pero, ¿qué ocurre si ambos confesamos?” pregunta Fred (o Ed). “En ese caso”, dice la fiscal del distrito, “dejaré que la justicia siga su curso natural. Se trata de un grave delito y estimo que los condenarán a cinco años a cada uno” [pago P = 5]. Sin agregar nada más, la fiscal se retira y deja a Ed (o a Fred) en solitaria reflexión108_.

En su forma más abstracta sobre todo empleada en la literatura económica para normalizar el tratamiento matemático de algunos teoremas un juego Γ se define por los siguientes elementos:

105_{Cfr. Hardin, 1968}

106_{Más que la formalización, se atribuye a Tucker el presentar la situación con la historia de los prisioneros y los}

resultados en términos de años de prisión, para hacer más accesibles las ideas de Flood y Dresher a quien no estuviese familiarizado con la teoría de juegos.

107_{En principio es irrelevante que puedan comunicarse o no, aunque en una primera aproximación al problema su}

comprensión resulta más sencilla suponiendo que no pueden establecer ningún contacto.

• Un conjunto de jugadores, N = {i1, i2, ..., in}

• Un espacio de estrategias Sn para cada jugador in, que contiene las alternativas, sn1, ...,

snm, entre las que in puede escoger: Sn = {sn1, ..., snm}. Un miembro genérico de este conjunto, sin especificar de qué estrategia se trata, es si. A menudo es necesario describir las estrategias escogidas por todos los jugadores, excepto un cierto jugador i que estemos considerando. Para este propósito, por convención se emplea la notación s- i .

• Un perfil de estrategias, rk = (si, s-i), es un vector de estrategias que determina alguno de los resultados del juego. El conjunto de todos los perfiles de estrategias, S, es el producto cartesiano de los espacios de estrategias de los jugadores: S = S1 × S2 × ... ×

Sn.

• Para cada jugador i, se define una función de pagos ui : S → R (donde el dominio de la función es el conjunto de perfiles de estrategias S, y el rango de la función es el conjunto de números reales R) de modo que para cada perfil de estrategias rk ∈ S que

escogen los jugadores, ui(rk) es el pago del juego para el jugador i.

El DP tal como lo hemos descrito más arriba quedaría entonces definido como Γ = [N = {1, 2}, S1 = {s11, s12}, S2 = {s21, s22}, r1 = (s11, s21), r2 = (s11, s22), r3 = (s12, s21), r4 = (s12, s22)}, u1 = {u1(r1) = 1, u1(r2) = 2, u1(r3) = 5, u2(r4) = 10}, u2 = {u2(r1) = 10, u2(r2) = 2, u2(r3) = 5, u2(r4) = 1}]

Evidentemente esta descripción del juego es muy poco intuitiva, y su tratamiento sería sumamente engorroso. Por ello se suelen representar los juegos en lo que son su forma normal y su forma extendida. Ésta tiene la estructura de un árbol de decisiones, y es más apropiada para aquellos juegos donde los jugadores toman sus decisiones sucesivamente, es decir, uno antes que el otro. Por ahora no me referiré a esta forma, y representaremos el DP en su forma normal, que es como se lo presenta siempre. La forma normal se configura en lo que se conoce como “matriz de pagos”:

Tabla 1

Dilema del Prisionero (1) Jugador 2

Calla Confiesa

Jugador 1 Calla R = 2 ; R = 2 S = 10 ; T = 1

Con la matriz de pagos a la vista se percibe fácilmente en qué consiste la perversa estructura de este juego: independientemente de lo que haga el otro, a cada uno le conviene delatar109_{. Sin embargo, si ambos se delatan mutuamente (lo cual sería ciertamente el} comportamiento racional) a los dos les va peor que si ambos hubiesen callado. Dos agentes

irracionales lograrían mejor, para cada uno, el propósito maximizador que prescribe la racionalidad.

En este primer ejemplo, los pagos se cuentan como años de prisión, y por lo tanto a cada prisionero le interesa minimizar esta cantidad. El resultado y los pagos son en este caso idénticos. Pero en lo que sigue, los pagos de los juegos serán expresados en su medida más abstracta, la utilidad que reporta un cierto resultado a cada jugador. Esta utilidad, pues, ha de ser

maximizada por un agente racional.

Como observación general, conviene también notar que el DP no es un juego de suma cero, es decir, no se cumple que lo que gana un jugador sea siempre lo que está perdiendo el otro (esto se cumple sólo cuando los prisioneros escogen estrategias diferentes; si eligen la misma, ambos ganan o pierden lo mismo). Precisamente por esto la cooperación debería ser posible, al menos en principio. En principio, porque una discusión importante generada por este dilema y sus respectivos intentos de solución es si la cooperación es en absoluto viable, o si ambos prisioneros están indefectiblemente condenados por su propia racionalidad a pasar 5 años entre rejas.

Cuando el DP ya no es protagonizado por presos, confesiones y años de prisión, se denomina genéricamente cooperación la acción que no maximiza la utilidad propia, pero que empleada conjuntamente produce el resultado cooperativo, superior en términos de utilidad a la situación resultante de que ambos defrauden. Se entiende por defraudar, pues, la acción propiamente racional, que busca maximizar la utilidad propia.

Las iniciales T, R, S y P son las abreviaturas convencionales para referirse a los diferentes pagos que pueden resultar del juego, y su significado es el siguiente. T es la tentación de defraudar unilateralmente, lo que representa el resultado más deseable para cualquiera de los dos jugadores. S es el pago que obtiene el tonto (“sucker”) que comete la ingenuidad de cooperar, de lo cual se aprovecha el otro jugador, que ha defraudado. R es la recompensa por la cooperación mutua. Por último, P es la penalización que ambos obtienen por el fraude mutuo.

Los valores que adopten estas cuatro variables no tienen por qué ser los que aparecen en el ejemplo de la tabla 1, pero para que la estructura del DP se mantenga debe verificarse que:

T > R > P > S

109_{Técnicamente esto se conoce como “estrategia dominante”, es decir, un curso de acción que siempre es la mejor}

El signo “>” significa aquí “preferible a”, pero si expresamos los pagos como intervalos en una escala de utilidad cardinal, significaría “mayor que”. Además, si el juego se repite ha de cumplirse que (T + S) / 2 < R, para evitar que a los jugadores les resulte más rentable explotarse por turnos que cooperar.

Con esta definición general de lo que es un juego, un primer esbozo del DP, y una serie de términos asociados habituales en la literatura especializada, podemos pasar ahora a considerar estos mismos conceptos a la luz del “marco ampliado” que habíamos introducido en el apartado anterior.

In document Juegos evolutivos y conducta moral un análisis mediante simulaciones informáticas del surgimiento y justificabilidad de conductas no maximizadoras en contextos estratégicos (página 56-61)