Inteligencia artificial: Alphago Zero y el aprendizaje de las máquinas

(1)

Inteligencia artificial: Alphago Zero y el aprendizaje de las máquinas

Artificial Intelligence: Alphago Zero and the Learning of Machines

Alberto Romero García1*

Resumen

Uno de los grandes sueños de la inteligencia artificial siempre ha sido crear máquinas capaces de superar a los humanos en las tareas más complejas. Google DeepMind y su AlphaGo Zero han demostrado que además de superar cuantitativamente la capacidad de aprendi-zaje humana es posible hacerlo también cualitativamente. Con ello, se ha abierto la puerta a la existencia de máquinas capaces de desarrollar modelos avanzados para entender el mundo; modelos que podrían igualar e incluso superar a los nuestros, aplicables también a la ingenie-ría civil. A partir de ahora el único límite es la imaginación.

Palabras clave: inteligencia artificial, AlphaGo Zero, aprendizaje, modelos mentales, humanos y máquinas.

Abstract

One of the greatest dreams of artificial intelligence has always been the creation of machines capable of surpassing humans in the most challenging tasks. Google DeepMind and its computer program AlphaGo Zero have demonstrated that as well as surpassing quantitatively human learning ability it is also possible to do so qualitatively. Thereby, the door to the existence of machines able to develop advanced models to understand the world has been opened; models that could match and even outpace those of our own, including the ones applicable to civil engineering. Henceforth, imagination is the only limit.

Keywords: artificial intelligence, AlphaGo Zero, learning, mental models, human beings and machines.

1. ALPHAGO Y EL APRENDIZAJE HUMANO

En los últimos años Google DeepMind ha desarrolla-do distintas versiones de una máquina, AlphaGo, que ha aprendido a jugar al Go (fig. 1) al nivel de los mejores ju-gadores humanos. AlphaGo Master (AGM), que venció al mejor jugador del mundo por 3-0 (Villatoro 2017), era la versión más poderosa hasta ahora. En el texto me referiré a AGM pero muchas de sus capacidades son compartidas por las versiones anteriores.

AGM fue entrenada durante meses usando partidas humanas de alto nivel. Después siguió mejorando jugando partidas contra sí misma (Hassabis, Silver 2017; Silver et al. 2017). Este método de aprendizaje es una combinación de aprendizaje supervisado (partidas humanas) y aprendiza-je por refuerzo (partidas contra sí misma). Se alimenta a la máquina con muchos ejemplos de partidas para que poco a poco vaya aprendiendo y mejorando (aunque nunca en-tendiendo como lo haría una persona). Después refuerza su aprendizaje jugando contra sí misma, hasta acabar ju-gando casi de manera perfecta dentro del marco de apren-dizaje que ha sido proporcionado por los diseñadores. Esto quiere decir que el aprendizaje de la máquina depende de la calidad del entrenamiento que se le ha dado.

Un entrenamiento basado en partidas humanas implica que la máquina aprenda a jugar como un humano, usando estilos y estrategias de juego similares. Pero ¿quién dice que los humanos hemos desarrollado las mejores estrategias

posibles para el Go? Que los mejores jugadores humanos jueguen de una forma no implica necesariamente que esa forma sea la óptima.

Figura 1. Tablero de Go.

Para entender mejor los modelos de juego en este con-texto pensemos en el ajedrez, un juego conocido por todos (fig. 2). Al igual que en el caso del Go el estilo de juego ha ido desarrollándose con el paso del tiempo. Se han ido de-sarrollando aperturas, estilos, tácticas y estrategias más efi-cientes y potentes, dadas unas reglas que siempre han sido las mismas. Esto implica que si el mejor jugador de ajedrez del siglo XV se enfrentara al mejor jugador actual es muy probable que el primero no tuviera ninguna posibilidad de ganar, ya que el conocimiento del juego ha avanzado

*_{Autor de contacto:}_{[email protected]}

(2)

mucho con los años. Esto nos dice algo importante: par-tiendo de unas condiciones determinadas (unas reglas y un marco de acción suficientemente complejo), las mejores es-trategias que existen para lograr un objetivo muy probable-mente no serán descubiertas, entendidas o aprendidas de manera inmediata. Se necesitarán un desarrollo y una ma-duración adecuados para descubrir los estilos y estrategias óptimos de juego.

Figura 2. Tablero de ajedrez.

Creo que la razón de que la inteligencia necesite tiem-po para entender sistemas suficientemente complejos tiempo-dría ser la necesidad de desarrollar conceptos y modelos mentales elaborados que requieren un aprendizaje profun-do y que deben ser construiprofun-dos a partir de otros concep-tos más simples. Utilizo aquí las expresiones de concepto y modelo como “trozos de realidad” que se agrupan entre sí para formar bloques compactos con un significado deter-minado. En el caso del ajedrez, cuando un jugador huma-no empieza a jugar cohuma-noce las reglas y el marco de juego, es decir, las piezas, los movimientos que pueden hacer, el es-tado inicial del juego y las condiciones necesarias para que se acabe. Cada pieza individual representa un concepto del nivel más básico. Dentro del concepto de “pieza” se agrupa toda la información de las propiedades de dicha pieza, de

manera que se puede trabajar con toda esa información a la vez, sin necesidad de estudiar por separado cada elemento de información que contiene dicho concepto.

El lenguaje es un componente clave en este proce-so (Marcus 2004, pp. 111-145) y un ejemplo es la palabra “peón”. Guardamos en esas cuatro letras el concepto de peón y con ello toda la información relativa a esa pieza. Al decir “peón” cualquiera entiende que es una pieza de aje-drez, que cada jugador tiene 8, que solamente se mueven hacia delante, que puede convertirse en otra pieza si coro-na, etc. Toda esa información está guardada en el concep-to abstracconcep-to de peón, que luego convertimos en la palabra “peón” mediante el lenguaje. Con esto quiero resaltar cómo los humanos creamos conceptos y modelos mentales ela-borados apoyándonos en otros más simples y cómo ese proceso nos ayuda a desarrollar nuestra comprensión de la realidad.

A medida que un jugador aprende (o bien estudia lo que otros han descubierto, o bien descubre él mismo) va desarrollando conceptos de mayor nivel que son capaces de representar la misma información que los conceptos más básicos, pero agrupándola de manera más compac-ta y eficiente aún. La imporcompac-tancia de este desarrollo reside en las posibles nuevas combinaciones que ofrece el nue-vo concepto. Se ha creado a partir de la combinación de otros más simples, pero su valor es mayor que la suma de sus partes.

Algunos ejemplos podrían ser: las aperturas (como la apertura inglesa o el gambito de dama, mostradas en la fig. 3) —que son ciertas combinaciones de piezas que se juegan de manera determinada al inicio de la partida—, el posi-cionamiento de los peones, o la división del juego en tres fases: la apertura, el medio juego y el final. Los jugadores de clase mundial probablemente desarrollen conceptos de nivel aún mayor. Estoy convencido de que para que un ju-gador sea capaz de jugar varias partidas simultáneas sin mirar una sola vez el tablero, como son capaces de hacer los grandes ajedrecistas (Magnus Carlsen 2015), es necesario que haya desarrollado una serie de conceptos que le per-mitan no tener que recordar la posición exacta de cada pie-za. Estos conceptos comprenderían un modelo mental más general de la situación, como una estrategia con nombre y

(3)

apellidos que esté aplicando y que requiera mover las pie-zas de cierta manera. De este modo sería capaz de recordar perfectamente dónde están porque ha agrupado la infor-mación de la posición de muchas piezas, sus posibilidades de movimiento, el objetivo final, etc., que podrían ser dece-nas de parámetros independientes, en solo un parámetro; un único concepto que comprenda toda la información de esa estrategia.

A los músicos profesionales les ocurre lo mismo con la música. No ven 7 notas distribuidas en grupos aleatorios, en tiempos aleatorios y en un orden aleatorio. Ellos ven ar-monía, acordes, escalas, ven construcciones de mayor nivel con sentido propio, porque las han aprendido y han desa-rrollado una representación muy concreta de lo que esas construcciones significan (Jaime Altozano 2017). También es el modo en que aprendemos a leer y escribir. Primero aprendemos las letras, luego las palabras, luego las frases, etc. El sentido de un texto no lo dan las letras individuales que lo componen, sino las relaciones lingüísticas de mayor nivel en las que intervienen construcciones más elaboradas con un sentido más amplio y profundo que es imposible al-canzar desde niveles inferiores. Este tipo de construcciones no pueden aprenderse desde el principio, deben construir-se desde los niveles más básicos hasta los más elaborados.

2. ALPHAGO ZERO: MÁS CERCA DE LA INTELIGENCIA ARTIFICIAL

Volviendo al Go. Es posible que, a pesar de los años que llevamos desarrollando modelos y evolucionando las es-trategias, aún no hayamos sabido desarrollar las construc-ciones que conformarían un estilo de juego óptimo. El Go es aún más complejo que el ajedrez, por lo que es lógico pensar que se requiere un entrenamiento más extenso para desarrollar los conceptos óptimos. Aquí es donde entra Al-phaGo Zero (AGZ).

AGZ es la versión de AlphaGo que Google DeepMind dio a conocer a finales de 2017. Fue diseñada de forma distinta a las versiones anteriores. Sin entrar en detalles técnicos podríamos decir que el único conocimiento im-plementado en AGZ fueron las reglas del juego (Silver et al. 2017). Sin entrenamiento por parte de sus creado-res, es decir, sin enseñarle partidas humanas, fue capaz de aprender a jugar en unos días mucho mejor que sus

predecesoras, únicamente jugando contra sí misma y par-tiendo de un juego completamente aleatorio. En contra-posición al aprendizaje de las otras versiones, en AGZ únicamente se usó aprendizaje por refuerzo, sin supervi-sión humana y sin previa implementación de conceptos de mayor nivel.

Es posible que AGZ utilizase por su cuenta conceptos altamente complejos que le permitieron superar a su pre-decesora, AGM, que estaba limitada por los conceptos en-señados por los humanos. AGZ fue desarrollando su juego hasta utilizar conceptos de alto nivel conocidos por los ju-gadores, como las apreturas, las tácticas, la iniciativa, la for-ma, influencia y territorio, vida y muerte o la lucha de ko, llegando incluso a aplicar estrategias más allá del conoci-miento de los jugadores humanos (Hassabis, Silver 2017; Silver et al. 2017).

Hay que decir que aunque los modelos aprendidos por los mejores jugadores humanos son de alto nivel desde el punto de vista de cualquier persona, tal vez para una má-quina como AGZ conformen un juego primitivo y poco eficiente. Esto implicaría no solo que AGZ haya apren-dido cuantitativamente más que AGM o cualquier juga-dor humano, sino que incluso habrían surgido diferencias cualitativas (Silver et al. 2017) entre los conocimientos desarrollados por AGZ y los del resto de jugadores (de la misma forma que ocurriría entre un “Gran Maestro” y un aficionado, como he comentado con el ejemplo del ajedrez).

Lo más importante que ha logrado AGZ no es haber superado a todas sus versiones anteriores después de unos pocos días de aprendizaje, como se muestra en la fig. 4, sino lo que se desprende de este resultado: los modelos desa-rrollados por los humanos para el juego del Go a lo largo de más de 2000 años (y usados inicialmente para enseñar a AGM) no solo no son los óptimos, sino que en solo unos días AGZ ha aprendido a utilizar otros mejores. Esto pone en contraste nuestra “reducida” capacidad de aprendizaje con la que podrían tener máquinas diseñadas adecuada-mente. Por supuesto no debemos olvidar que estas máqui-nas solo computan números, no entienden lo que hacen, por lo que no puede decirse que sean inteligentes en el sen-tido humano.

Aunque no sabemos si AGZ ha logrado desarrollar unos modelos de juego óptimos, lo que sí sabemos es

(4)

que son tan superiores a los nuestros que no hay ningu-na posibilidad de que AGZ pierda jamás contra ningún humano. Alguien podría argumentar que la capacidad de computación de AGZ le da una ventaja cuantitativa con respecto a un jugador humano y es eso lo que le permite ganar con facilidad. La realidad es que el Go es tan com-plejo que los jugadores profesionales basan su juego en gran medida en la intuición (Corbella 2017; DeepMind 2017) y de momento una máquina basada en la fuerza bruta no es capaz de igualar sus resultados. Lo que yo creo es que la gran capacidad computacional de AGZ en combinación con el aprendizaje por refuerzo es lo que le ha permitido desarrollar modelos superiores, cualitativa-mente diferentes, que aplica para jugar a un nivel al que los humanos no podemos llegar. Esto explicaría por qué algunas decisiones de AGZ son misteriosas incluso a ojos de los expertos, acabando sorprendentemente con cierta ventaja tras los intercambios sin utilizar las estrategias es-tándar (Singh, Okun y Jackson 2017).

Podría extraerse de esta noticia la conclusión de que AGZ ha conseguido emular un procesamiento de la infor-mación similar al nuestro, pero es interesante recordar que AGZ no entiende lo que hace de la misma manera que no-sotros; no ha agrupado la información intencionadamente para crear un concepto y utilizarlo después, simplemente computa cada movimiento de las piezas en forma de nú-meros buscando optimizar su juego y aumentar sus posi-bilidades de conseguir su objetivo: ganar la partida. Lo que ocurre es que esos movimientos que AGZ utiliza porque le proporcionan los mejores resultados conforman en mu-chos casos los modelos de juego que nosotros, los huma-nos, hemos desarrollado con el tiempo.

AGZ ha utilizado conceptos nuevos sin saberlo, sin entender la realidad ni poseer lenguaje. Ha logrado el mismo resultado que nosotros con una diferencia funda-mental: AGZ parte de unas circunstancias distintas. Los humanos podemos hacer lo que hacemos porque tene-mos una serie de características y facultades muy con-cretas que nos permiten hacerlo, desarrolladas durante la evolución de nuestra especie. Entre ellas están la imagina-ción creativa para inventar conceptos nuevos y el lenguaje para darles nombre, además de otras como la autocons-ciencia, los sentidos, las emociones, la memoria, la creati-vidad, la cultura, el sentido común, etc. De todo esto surge la siguiente pregunta: ¿Sería posible que una colección de facultades y características distinta a la que poseemos los humanos permita alcanzar una comprensión de la rea-lidad como la que conseguimos nosotros? Tal vez sean imprescindibles ciertas facultades biológicas para poder comprender la realidad, pero no todas las facultades hu-manas tienen porqué ser necesarias. Que la biología haya encontrado un camino con ayuda de la evolución no im-plica que sea el único. Al fin y al cabo los pájaros vuelan batiendo las alas mientras que nuestros aviones utilizan motores: mismo resultado con distinto punto de partida y distinto camino.

3. EL FUTURO DE LAS MÁQUINAS INTELIGENTES

Pero estamos hablando del ajedrez y del Go, juegos con reglas y límites completamente definidos. Si a pesar de ser unas reglas tan simples con marcos tan simples

(son juegos complejos, pero muy simples dentro de lo que es la realidad) los humanos no hemos sido capaces de de-sarrollar los modelos de acción más eficientes, ¿qué po-demos pensar sobre otros ámbitos cuyas reglas y marcos son aún mucho más complejos? ¿Qué hay del póker, por ejemplo, un juego en el que aparecen otras variables como el azar, la incertidumbre y el engaño creativo? Sería ilógi-co pensar que hemos desarrollado los mejores modelos para el póker. Lo mismo podría decirse de juegos online multijugador, que son en tiempo real, como League of Le-gends o Dota. ¿Sería posible desarrollar una máquina que nos superara en estos juegos? Parece que la respuesta es sí. Aunque no podemos saber cuándo será, es probable que solo sea cuestión de tiempo. Y entonces, ¿cómo jugaría una máquina homóloga a AGZ a estos juegos? No pode-mos siquiera imaginárnoslo. ¿Cuáles serían los conceptos que desarrollaría para jugar mejor, de manera más efi-ciente? Lo único que podemos prever es que cuanto más complejas sean las reglas y las opciones que ofrece el jue-go, probablemente más lejos estamos los humanos de ha-ber desarrollado los conceptos óptimos, más ventaja nos acabarán sacando las máquinas y más lejos estaremos de comprender sus comportamientos o predecir lo siguien-te que harán.

Entonces, ¿qué ocurre con la realidad? La realidad también se conforma a partir de una serie de reglas: las leyes del universo. Desde las leyes de la física y la quími-ca hasta las leyes biológiquími-cas y sociales, muchas de las cua-les nos son aún desconocidas. Estas “reglas”, al igual que en el ajedrez o el Go, disponen de un marco de acción: el universo. ¿Será posible en un futuro lejano (tal vez muy lejano) desarrollar una máquina capaz de jugar al “juego” de la realidad? En caso de que sea posible, siguiendo la misma lógica que antes, en el juego de la realidad es en el que aún nos queda más margen de desarrollo debido a la complejidad de sus reglas y su marco de acción y las posi-bilidades que ofrecen.

4. INTELIGENCIA ARTIFICIAL EN LA INGENIERÍA CIVIL

Hemos avanzado mucho desde que empezamos a ju-gar; las ciencias y la tecnología son pruebas de ello, pero ¿de qué sería capaz una máquina que pudiera aprender la realidad hasta niveles inimaginables para nosotros? Más allá de las implicaciones filosóficas y morales, sería intere-sante reflexionar sobre sus efectos en una disciplina como la ingeniería civil, cuyo desarrollo nos afecta directamente a todos. Una máquina homóloga a AGZ entrenada para ex-pandir nuestros conocimientos en ingeniería civil podría quizá ser capaz de superar muchos problemas:

Podría, por ejemplo, diseñar carreteras y autovías opti-mizadas para el tráfico habitual, o incluso podría diseñarlas con nuevos materiales inteligentes que pudieran expandir-se creando carriles adicionales cuando fuera necesario, eli-minando con ello los atascos. Podría mejorar las redes de transporte urbano, creando nuevos sistemas de semáforos adaptables al tráfico de peatones y vehículos que tuvieran la capacidad de eliminar las zonas de tráfico denso dentro de las ciudades.

(5)

que cumplieran los horarios y nunca descarrilaran; podría mejorar la aerodinámica y la estructura de los aviones, ha-ciéndolos más baratos y más seguros.

Podría diseñar edificios inteligentes que se enfriaran en verano y se calentaran en invierno, manteniendo una tem-peratura adecuada sin necesidad de acción humana. Podría detectar fallos en las infraestructuras antes de que se pro-dujeran, encontrando patrones imperceptibles para noso-tros y actuando en consecuencia.

Podría perfeccionar las centrales de energía, maximi-zando el rendimiento de los procesos de transformación energética. Podría desarrollar las energías renovables ha-ciéndolas más competitivas. Podría descubrir una forma de hacer viable la energía nuclear de fusión.

Podría reducir el error inherente a todos los procesos ingenieriles, aumentando la eficiencia de cualquier sistema artificial.

Estos son solo algunos ejemplos y si AGZ se caracteri-za especialmente por algo es por ser capaz de “ver” más allá que nosotros. Quién sabe hasta dónde podría llegar.

5. REFERENCIAS BIBLIOGRÁFICAS

Corbella, J. (2017). La inteligencia artificial ya no necesi-ta a las personas. La Vanguardia, 19 oct. 2017. [Consulta 24 octubre 2017]. Disponible en http://www.lavanguardia.com/ciencia/20171019/432171399410/inteligencia-artificial-alphago-ze-ro-juego-go-deepmind.html

DEEPMIND (2017). AlphaGo. DeepMind. 19 my. 2017. [Con-sulta 25 octubre 2017]. Disponible en https://deepmind.com/re-search/alphago/

Hassabis, D., y Silver, D. (2017). AlphaGo Zero: Learning from scratch. DeepMind. 18 oct. 2017. [Consulta 25 octubre 2017]. Dispo-nible en https://deepmind.com/blog/alphago-zero-learning-scratch/ Jaime Altozano (2017). [Vídeo]. Tutorial de armonía y acor-des: Fácil | Jaime Altozano. En YouTube. 9 oct. 2017. [Consulta 9 octubre 2017]. Disponible en https://www.youtube.com/watch?-v=GUEUlw3rDEc

Magnus Carlsen (2015). [Vídeo]. Magnus Carlsen Blind & Ti-med Chess Simul at the Sohn Conference in NYC. En YouTube. 22 my. 2015. [Consulta 25 octubre 2017]. Disponible en https://www. youtube.com/watch?v=xmXwdoRG43U

Marcus, G. 2004. The Evolution of Mental Genes. En The Birth of the Mind. How a Tiny Number of Genes Creates the Complexities of Human Thought. New York: Basic Books, pp. 111-145.

Silver, D. [et al.] (2017). Mastering the game of Go without human knowledge. Nature, vol. 550, pp. 354-359. doi: 10.1038/na-ture24270

Singh, S., Okun, A., y Jackson, A. 2017. Artificial Intelligence: Learning to play Go from scratch. Nature, vol. 550, pp. 336-337. doi: 10.1038/550336a

Villatoro, F.R. (2017). Las diferencias entre AlphaGo Fan, Al-phaGo Lee, AlAl-phaGo Master y AlAl-phaGo Zero. NAUKAS. 21 oct. 2017. [Consulta 23 octubre 2017]. Disponible en http://francis. naukas.com/2017/10/21/las-diferencias-entre-alphago-fan-al-phago-lee-alphago-master-y-alphago-zero/

6. REFERENCIAS VISUALES