Divide y vencerás: La inteligencia artificial está aprendiendo a ganarnos en todo empezando por los videojuegos

Los investigadores de Microsoft han creado un sistema basado en inteligencia artificial (IA) que ha aprendido cómo conseguir la máxima puntuación en el mítico y adictivo videojuego de 1980: Ms. Pac-Man.

Empleando el método de “divide y vencerás” se podría llegar a enseñar a los agentes de IA a realizar tareas complejas que aumentasen las capacidades humanas.

El equipo de Maluuba, una startup canadiense de aprendizaje profundo adquirida por Microsoft a principios de este año, ha usado una rama de IA llamada “aprendizaje de refuerzo” para jugar la versión Atari 2600 de Ms. Pac-Man a la perfección.

Utilizando ese método, el equipo ha alcanzado la máxima puntuación posible: 999,990 puntos.

Doina Precup, profesora asociada de Ciencias de la Computación en la Universidad McGill de Montreal (Canadá), señaló que se trata de un logro significativo entre los investigadores de IA, que se basaron en diferentes videojuegos para probar sus sistemas, aunque fue Ms. Pac-Man el más difícil de dominar.


El método -que el equipo de Maluuba llama “Arquitectura de recompensas híbridas”- utiliza más de 150 agentes de IA, cada uno trabajando en paralelo con otros agentes, para dominar el famoso videojuego.

Por ejemplo, algunos recibían una recompensa por encontrar los pellets del poder (que desactivan temporalmente a los fantasmas), mientras que otros se encargaban de mantenerse alejados del camino de los fantasmas.

Después, los investigadores crearon a un agente superior que cogía las sugerencias del resto de los agentes y las utilizaba para decidir los movimientos futuros de Ms. Pac-Man.

El agente superior tenía en cuenta el número de agentes que estaban yendo en una dirección determinada, así como de controlar la intensidad con la que querían realizar un movimiento.

Por ejemplo, si 100 agentes querían ir a la derecha porque era el mejor camino para conseguir un pellet, pero tres de ellos querían ir a la izquierda porque había un fantasma a la derecha, el agente superior daría más peso a aquellos que se hubieran dado cuenta del fantasma e indicaría ir a la izquierda.

Un sistema IA basado en aprendizaje supervisado aprendería cómo llegar a ofrecer una respuesta adecuada en una conversación, alimentándose de ejemplos de buenas y malas respuestas.

Por otro lado, de un sistema de refuerzo de aprendizaje, se espera que aprenda las respuestas apropiadas a través del feedback recibido de una fuente de alto nivel, como, por ejemplo, una persona que diga que ha disfrutado de la conversación, algo mucho más complicado.

Expertos en IA creen que el aprendizaje reforzado podría ser utilizado para crear agentes IA que puedan tomar más decisiones por sí mismos, permitiéndoles hacer un trabajo más complejo y liberando a la gente de trabajo.

Con información de Microsoft

Deja un comentario