El algoritmo deep Q-network fue capaz de superar a un humano en 43 juegos clásicos de Atari; la capacidad del programa para aprender de sus errores puede aplicarse en vehículos sin conductor.

Google ha descubierto la manera de vencerte en Atari. La compañía desarrolló un programa informático que puede jugar -y ganar- los videojuegos de la era Atari allá por los ochenta. Gracias a un algoritmo que Google bautizó como “deep Q-network”, una computadora fue capaz de alcanzar el nivel de pericia o destreza humana en más de dos docenas de juegos de la consola Atari, que van desde videojuegos de acción de desplazamiento lateral y disparos verticales como ‘River Raid’ a videojuegos de carreras de autos en 3D como ‘Enduro’. Los investigadores de Google describieron el logro en un artículo publicado en la revista Nature esta semana.

Google dio a la computadora el nivel básico para comprender cómo jugar el juego: la máquina fue capaz de “ver” los píxeles en la pantalla; se le dijo qué acciones realizaban los botones virtuales; y se le dijo la puntuación. Lo que es llamativo respecto al programa es que las computadoras no deberían ser buenas para los videojuegos. Los seres humanos pueden aprovechar las experiencias de la vida real cuando realizan tareas del juego, tales como conducir un coche o disparar un arma. Las computadoras normalmente sólo entienden de bits y bytes. Pero el nuevo programa de Google jugó igual de bien, si no mejor, que un jugador profesional humano en 29 de los 49 videojuegos que probó. En 43 de los 49 juegos, Google dijo que el algoritmo deep-Q network superó los algoritmos de aprendizaje automático existentes.

1-google-art2

En algunos juegos, la computadora de Google fue capaz de aprender estrategias que ayudaban a maximizar su puntuación. Por ejemplo, después de jugar 600 veces el videojuego de romper ladrillos Breakout, deep-Q network aprendió a abrir un túnel a través de los ladrillos para que la pelota rebotara en la parte trasera de la pared para destrozar los ladrillos desde atrás, y no desde el frente. Google afirma que su algoritmo fue diseñado para imitar el aprendizaje humano que tiene lugar en una parte del cerebro llamada hipocampo, que nos ayuda a aprender de la experiencia reciente. Deep-Q network fue diseñado para aprender por qué perdió una partida de un videojuego y mejorar su juego en función de su desempeño pasado.