AI ahora puede jugar Minecraft tan bien como tú: he aquí por qué es importante

AI ahora puede jugar Minecraft tan bien como tú: he aquí por qué es importante

Los expertos de OpenAI entrenaron una red neuronal para jugar Minecraft a un nivel tan alto como el de los jugadores humanos.

La red neuronal se entrenó con 70 000 horas de imágenes diversas del juego, complementadas con una pequeña base de datos de videos en los que los contratistas realizaban tareas específicas del juego, y también se grababan las entradas del teclado y el mouse.

Después de los ajustes, OpenAI descubrió que el modelo era capaz de realizar todo tipo de habilidades complejas, desde nadar hasta cazar animales y comer su carne. También agarró el "salto del pilar", un movimiento en el que el jugador coloca un bloque de material debajo de ellos en medio del salto para ganar altura.

Quizás lo más impresionante es que la IA pudo crear herramientas de diamante (que requerían que se realizaran una larga serie de acciones en secuencia), lo que OpenAI describió como un logro "sin precedentes" para un agente informático.

¿Un gran avance en IA?

La importancia del proyecto Minecraft es que demuestra la efectividad de una nueva técnica que OpenAI está implementando para entrenar modelos de IA, llamada Video PreTraining (VPT), ​​que según la compañía podría acelerar el desarrollo de "agentes que usan computadoras generales".

Históricamente, la dificultad de usar video sin procesar como fuente para entrenar modelos de IA ha sido que lo que sucedió es bastante simple de entender, pero no necesariamente cómo. Esto se debe a que el modelo de IA absorbería los resultados deseados, pero no comprendería las combinaciones de entradas necesarias para lograrlos.

Sin embargo, con VPT, OpenAI combina un gran conjunto de datos de video extraídos de fuentes web públicas con un conjunto de imágenes cuidadosamente seleccionadas etiquetadas con movimientos relevantes del teclado y el mouse para establecer el modelo de referencia.

Para refinar el modelo base, el equipo incorpora conjuntos de datos más pequeños diseñados para enseñar tareas específicas. En este contexto, OpenAI usó imágenes de jugadores que realizaban acciones tempranas del juego, como talar árboles y construir mesas de trabajo, lo que habría resultado en una "gran mejora" en la confiabilidad con la que el modelo podía realizar estas tareas.

Otra técnica es "premiar" al modelo de IA por completar cada paso de una secuencia de tareas, práctica conocida como aprendizaje por refuerzo. Fue este proceso el que permitió que la red neuronal recolectara todos los ingredientes para un pico de diamante con una tasa de éxito a nivel humano.

"VPT allana el camino para que los agentes aprendan a actuar viendo una gran cantidad de videos en Internet. En comparación con el modelado de video generativo o los métodos contrastivos que solo producirían antecedentes representacionales, VPT ofrece la emocionante posibilidad de 'aprender directamente de los videos a gran escala'. antecedentes de comportamiento en más áreas que solo el lenguaje”, explicó OpenAI en una publicación de blog (se abre en una nueva pestaña).

"Aunque solo estamos experimentando en Minecraft, el juego es muy abierto y la interfaz humana nativa (mouse y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otras áreas similares, por ejemplo, usar una computadora".

Para estimular la nueva experimentación en el espacio, OpenAI se asoció con la competencia MineRL NeurIPS, donando sus datos empresariales y código de modelo a los concursantes que intentan usar la IA para resolver complejos de Minecraft. El gran premio: €100,000.