El último programa de inteligencia artificial de DeepMind puede lograr un “rendimiento sobrehumano” en tareas sin necesidad de que se le den las reglas.
Al igual que los primeros agentes de inteligencia artificial del centro de investigación, MuZero logró el dominio en docenas de viejos videojuegos de Atari, ajedrez y los juegos de mesa asiáticos de Go y Shogi.
Lee También: Muñecas hiperrealistas una alternativa a los hijos para algunas familias
Pero a diferencia de sus predecesores, tuvo que elaborar sus reglas por sí mismo.
Ya se está poniendo en práctica para encontrar una nueva forma de codificar videos, lo que podría reducir los costos de YouTube.
“El mundo real es desordenado y complicado, y nadie nos da un libro de reglas sobre cómo funciona”, dijo a la BBC el principal científico investigador de DeepMind, David Silver.
“Sin embargo, los seres humanos pueden formular planes y estrategias sobre qué hacer a continuación.
“Por primera vez, tenemos un sistema que es capaz de construir su propia comprensión de cómo funciona el mundo y utilizar esa comprensión para realizar este tipo de planificación avanzada y sofisticada que ha visto anteriormente en juegos como el ajedrez.
“[Puede] empezar de cero, y sólo mediante prueba y error, ambos descubren las reglas del mundo y usan esas reglas para lograr una especie de actuación sobrehumana”.
Wendy Hall, profesora de informática en la Universidad de Southampton y miembro del consejo de inteligencia artificial del gobierno, dijo que el trabajo marcó un “importante paso adelante”, pero generó preocupaciones.
“Los resultados del trabajo de DeepMind son bastante asombrosos y me maravilla lo que podrán lograr en el futuro dados los recursos que tienen a su disposición”, dijo.
“Mi preocupación es que mientras se esfuerzan constantemente por mejorar el rendimiento de sus algoritmos y aplicar los resultados en beneficio de la sociedad, los equipos de DeepMind no están poniendo tanto esfuerzo en pensar en las posibles consecuencias no deseadas de su trabajo.
“Dudo que los inventores del motor a reacción estuvieran pensando en la contaminación global cuando estaban trabajando en sus inventos. Debemos lograr ese equilibrio en el desarrollo de la tecnología de inteligencia artificial”.
Compresión de video
DeepMind, con sede en Londres, publicó por primera vez detalles de muZero en 2019 , pero esperó hasta la publicación en la revista Nature para discutirlo.
Representa el último éxito de la empresa en el aprendizaje por refuerzo profundo, una técnica que utiliza redes neuronales de muchas capas para permitir que las máquinas se enseñen a sí mismas nuevas habilidades a través de un proceso de prueba y error, recibiendo “recompensas” por el éxito en lugar de que se les diga qué hacer.
MuZero sigue los pasos de: un programa conocido como DQN , que logró una competencia superior a los humanos en los videojuegos de Atari utilizando solo píxeles y puntajes de juego como entrada
AlphaGo, el programa que supeó al maestro de Go Lee-Sedol 4-1 en una competición pionera en 2016 , después de haber sido entrenado en partidos pasados
AlphaGo Zero, que superó a AlphaGo en rendimiento al año siguiente después de entrenarse desde cero y solo se le proporcionaron las reglas básicas del juego.
AlphaZero, que en 2017 generalizó AlphaGo Zero para que se pudiera aplicar a otros juegos, incluidos el ajedrez y el Shogi.
Más recientemente, DeepMind, que es propiedad del mismo padre que Google, hizo un gran avance en el plegamiento de proteínas al adaptar estas técnicas, lo que podría allanar el camino hacia nuevos medicamentos para combatir enfermedades.