Hay 12 fichas con diferentes atributos en Stratego. Cada jugador coloca sus 40 fichas en el tablero, pero no tiene idea de cómo las colocó su oponente.

DeepMind, una empresa británica propiedad de Google desde 2014, ha desarrollado con éxito un algoritmo que puede jugar Stratego (un popular juego de mesa) como un experto humano. Tal y como detalla un equipo de investigadores de la compañía en un artículo publicado hoy en la revista Science, DeepNash, como ha sido nombrada la herramienta, ha aterrizado entre los tres primeros del portal Gravon dedicado al juego online. Es un hito por el alto nivel de complejidad del juego, que incorpora elementos de estrategia, intuición (el jugador no tiene toda la información necesaria para hacer un plan perfecto) e incluso bravuconería. Los autores del estudio creen que el algoritmo podría tener aplicaciones en áreas como la optimización del tráfico automatizado.

Jumbo ha estado a la venta desde la década de 1960 y, aunque se inventó antes de la Primera Guerra Mundial, Stratego es uno de los pocos juegos de mesa icónicos que no ha sido dominado por la inteligencia artificial. Este juego de estrategia se caracteriza por un doble desafío: requiere un pensamiento estratégico a largo plazo, como el ajedrez, pero también es necesario manejar información imperfecta, como el póquer, porque las fichas del oponente están inicialmente cubiertas y se van revelando a medida que avanza el juego. Esta singularidad lo convierte en un juego más complejo que el Go, el milenario juego asiático cuyo tablero permite disponer las piezas en más combinaciones diferentes que átomos hay en el universo. También significa que ganar requiere más astucia que en el póquer, donde no conoces las cartas de tu oponente, necesitas intuición y matemáticas.

Los emuladores de juegos han sido históricamente un buen termómetro de la eficacia de los programas informáticos. Proporcionan un entorno controlado con reglas precisas en las que las herramientas pueden ejercer sus capacidades, y es fácil medir su éxito: solo por si ganan el juego. Es el banco de pruebas perfecto para estudiar cómo los humanos y las máquinas desarrollan y ejecutan estrategias ganadoras. Así que DeepMind fijó su mirada en Stratego, un gran desafío para la máquina porque carece de la información que debe manejar durante el juego.

Hay 12 fichas con diferentes atributos en Stratego. Cada jugador coloca sus 40 fichas en el tablero, pero no tiene idea de cómo las colocó su oponente.Hay 12 fichas con diferentes atributos en Stratego. Cada jugador coloca sus 40 fichas en el tablero, pero no tiene idea de cómo las colocó su oponente.pensamiento profundo

DeepMind tiene una larga trayectoria en este campo, desarrollando herramientas de vanguardia que superan a los humanos en juegos complejos de estrategia a largo plazo con información perfecta, como Go (usando AphaGo), pero también en videojuegos con información imperfecta, como Starcraft Domination. (con AlphaStar). Hasta ahora, nadie ha logrado desarrollar una herramienta que pueda jugar Stratego al mismo nivel que los humanos expertos. Esto no es casualidad: el juego tiene 10⁵³⁵ arreglos posibles, lo cual es mucho mejor que el Texas Hold’em, un juego de información incompleta (todo el mundo solo sabe las cartas que tiene en la mano y las que está jugando) muy bien estudiado, 10¹⁶⁴ Estados, como Go, un antiguo juego asiático con 10³⁶⁰ opciones.

Por otro lado, cualquier acción realizada en la primera ronda debe considerar 10⁶⁶ pares de posibles configuraciones de bloques. En el póquer es 10⁶. Los juegos de información perfecta no tienen este problema porque las fichas son obvias.

Estas dos complejidades particulares hacen que sea imposible utilizar investigaciones previas para abordar el simulador de juego de Stratego. Para ello, el equipo de DeepMind desarrolló un algoritmo de aprendizaje por refuerzo que aplica un modelo teórico basado en el teorema del equilibrio de Nash del famoso matemático estadounidense de teoría de juegos. La herramienta no trata de predecir los posibles movimientos del oponente, que es la aproximación habitual en los simuladores de juegos, ya que el árbol de posibilidades al comienzo del juego es casi infinito, sino que construye su propia estrategia y luego procede de acuerdo con ella.

«Nuestro artículo muestra cómo se puede aplicar DeepNash a situaciones inciertas y equilibrar con éxito sus acciones para ayudar a resolver problemas complejos», explica Julien Perolat, autor principal del estudio. El científico y sus colegas creen que R-NaD, el algoritmo detrás de DeepNash, podría ayudar a desarrollar nuevas aplicaciones de IA que impliquen interactuar con muchas personas con diferentes objetivos, lo que puede provocar una falta de información en el sistema. Sobre lo que va a pasar.

La optimización de la gestión del tráfico a escala para reducir el tiempo de viaje y las emisiones de gases asociadas parece ser una buena aplicación, escriben Perolat y sus colegas en Science.

En esta obra, la máquina engaña al jugador humano, finge ser un explorador como mariscal y logra localizar al espía clave.En esta obra, la máquina engaña al jugador humano, finge ser un explorador como mariscal y logra localizar al espía clave.pensamiento profundo

Cómo jugar al ajedrez

Gracias a Internet, Stratego tiene una nueva vida. El popular juego de mesa ya está disponible en foros como Gravon, donde jugadores de todo el mundo se enfrentan en tensos torneos en línea.

En Stratego, dos jugadores se turnan para enfrentarse con 40 piezas de diferentes atributos en su tablero. El objetivo es capturar la bandera del oponente o evitar que el oponente mueva una pieza. Para ello, los jugadores avanzan por turnos utilizando sus fichas de movimiento, que pueden ser de diez tipos, correspondientes a rangos militares y especialistas, como minador, explorador o espía. Cada vez que la ficha entra en contacto con otro adversario, ambos quedan expuestos. Quien gane debido a un rango más alto o una habilidad especial permanece en el tablero; el perdedor sale del juego.

El algoritmo DeepNash es capaz de desarrollar estrategias impredecibles y ejecutar movimientos equivalentes de forma aparentemente aleatoria. Todo esto es para confundir al oponente, para que no pueda sacar conclusiones sobre el estilo de juego de la máquina. Por ejemplo, en uno de los juegos revisados ​​por el artículo, sacrificó dos peones importantes para colocar el peón superior de su oponente. Esto lo pone en una desventaja material, pero el algoritmo entiende que tener información sobre dónde están ubicadas las mejores piezas de su oponente le da un 70 por ciento de posibilidades de éxito. Al final, ganó ese partido. En otra ocasión, hizo un farol y persiguió un peón de alto rango con un peón muy bajo, convenciendo a su oponente de que estaba jugando 10 (Marshal), y sacó al Spy (S), un peón estratégico que perdió ante el personal Scout (2 ).

«Me sorprendió el nivel de DeepNash. Nunca había visto una máquina que pudiera jugar con Stratego como alguien con experiencia. Después de jugar contra DeepNash, estoy impresionado con la forma en que se colocó entre los tres primeros de la tabla de clasificación de Gravon y No me sorprende. Creo que si lo ponen en los campeonatos mundiales, le iría bien», dijo el ex campeón mundial de Stratego Vincent de Boer, coautor del artículo de Science.

Puedes seguir a PeriodistasdeGénero TECNOLOGÍA en Facebook y Twitter o darte de alta aquí para recibir nuestra newsletter semanal.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí