La gente de OpenAI decidió enfrentar a múltiples agentes en un clásico juego de escondite. A medida que el equipo de «buscadores» comenzó a acumular éxitos, el equipo que debía esconderse incorporó el uso de herramientas para lograr su objetivo, e incluso aprendió a «secuestrar» los recursos de su oponente.
La verdadera pregunta es: ¿Qué pueden lograr cuando llegan al final? Cooperación. Aplicación estratégica de recursos. Explotación de reglas establecidas. La gente de OpenAI lo llama «Uso Emergente de Herramientas a partir de Interacción Multi-Agente».
El escenario es sencillo: Dos equipos de agentes enfrentados en un juego de escondite. El sistema de recompensas se basa en puntos positivos y negativos, +1 para «encontrar/escapar», o -1 si «no encuentran nada/son vistos». Con una acumulación inicial de victorias por parte de los buscadores (rojo), el equipo azul comenzó a utilizar y fijar bloques para tapar las entradas, creando un escondite colaborativo. Después de varias generaciones, los buscadores también aprendieron a usar herramientas, moviendo rampas para saltar la pared y localizar a sus oponentes.
Esta estrategia fue infalible por millones de rondas, hasta que el equipo azul comprendió que si robaba las rampas antes de cerrar el refugio, los buscadores no podrían cruzar la pared. OpenAI no le dio a los equipos ninguna clase de incentivación para desarrollar semejante comportamiento. Cada vez que un equipo aprende una nueva habilidad, se crea un punto de presión adicional para el rival, quien de un modo u otro debe adaptarse.
La última fase del entrenamiento movió a los agentes a un espacio más abierto, donde el equipo azul estaría obligado a construir su propio refugio. Los agentes azules alejaron a las rampas del mapa y las fijaron allí, obteniendo así una total libertad para fabricar un espacio cerrado y aislar a los buscadores. ¿Qué hizo el equipo rojo de agentes buscadores? Aprendió a «surfear» sobre las cajas.
El experimento de OpenAI es un fabuloso ejemplo del aprendizaje por refuerzo. Los agentes entrenaron contra sí mismos, y contra versiones anteriores aplicando un algoritmo de auto-juego. A pesar de la relativa simplicidad de las reglas en este mundo de escondite, los agentes se las arreglaron para desarrollar estrategias inteligentes a pura competencia, colaboración, e interacción entre ellos.