A medio camino entre entornos robóticos sintéticos, simulaciones de agentes y la realidad, tenemos los juegos de ordenador: perfectos escenarios de testeo para inteligencias artificiales.
OpenAI está preparando el programa que controlará hasta 5 agentes contra 5 jugadores profesionales humanos en el complejo juego Dota2, un juego en el que el objetivo es destruir y conquistar el castillo del equipo oponente (link). OpenAI bot ya ha demostrado superioridad contra jugadores humanos en el 1 contra 1 Dota2 con juego restringido (link). El escenario multi jugador no es trivial y esto se debe a que cuando aprendemos de percepciones que incluyen comportamientos de otros agentes, no podemos garantizar la convergencia de los algoritmos de aprendizaje que tienen que tratar con entornos no estacionarios.
Deep Mind también se ha ocupado del juego multi-jugador en un artículo publicado recientemente (link) en el que un programa alcanza un nivel super-humano en el juego «Quake III Arena Capture the Flag» en escenarios 2 vs. 2 en los cuales los equipos deben capturar la bandera del oponente y traerla de vuelta a la base.
Es sorprendente ver cómo en los años 90 se utilizó una red neural de Aprendizaje por Refuerzo (Reinforcement Learning) para aprender a jugar a Backgammon: TD-Gammon (link). 25 años después, los juegos clásicos de Atari de los años 80 fueron abordados con éxito por Google Deep Mind con su algoritmo Deep Reforming Learning (DQN) que logró un rendimiento humano y súper humano en el 60% del los juegos (link). En 15% de los juegos, el algoritmo DQN tuvo serias dificultades principalmente debido a la planificación requerida a largo plazo, como en el juego Montezuma Revenge, donde DQN logró 0 puntos. La razón principal de esta falla es que las recompensas muy distantes no pueden lograrse mediante la exploración aleatoria inicial de los algoritmos de Aprendizaje por Refuerzo. Recientemente OpenAI publicó muy buenos resultados logrados en Montezuma aprendiendo de juego humano (link).
Curiosamente, la versión no determinista de PacMan también de Atari (MsPac Man aquella en la que los fantasmas toman una acción aleatoria cuando están cerca de las bifurcaciones) solo se ha resuelto recientemente mediante un enfoque que descompone la función de recompensa en diferentes componentes (link).
Deep Mind también ha demostrado la superioridad de un programa, Alpha Go y Alpha Go Zero (aprendiendo desde cero sin usar juego humano, link) en el antiguo juego de GO. Alpha Go Zero también aprendió a jugar al ajedrez mejor que los humanos. Es interesante analizar cómo Alpha Go Zero usa diferentes aperturas durante el curso del aprendizaje, lo que demuestra que a veces la cultura humana asigna valor a las aperturas de una manera sesgada por los humanos.
Los logros científicos de todos estos algoritmos están en debate (para una discusión en el campo de GO, ver link) y nosotros todavía necesitamos saber las contribuciones reales que pueden aportar a la sociedad. Una de las razones principales de este debate es que los cálculos necesarios para lograrlos aumentan exponencialmente (consulta el artículo de OpenAI, ver link).
Para una revisión histórica de la Inteligencia Artificial aplicada a juegos, vea la página de wikipedia: link y el reciente libro Artificial Intelligence and Games (2018 , ver link).