A IA agora pode jogar Minecraft tão bem quanto você – eis por que isso importa

A IA agora pode jogar Minecraft tão bem quanto você – eis por que isso importa

Especialistas da OpenAI treinaram uma rede neural para jogar Minecraft em um nível tão alto quanto o de jogadores humanos.

A rede neural foi treinada em 70 horas de diversas imagens do jogo, complementadas por um pequeno banco de dados de vídeos em que os contratados realizavam tarefas específicas no jogo, e entradas de teclado e mouse também eram gravadas.

Após ajustes, a OpenAI descobriu que o modelo era capaz de todos os tipos de habilidades complexas, desde nadar até caçar animais e comer sua carne. Ele também agarrou o "salto do pilar", um movimento em que o jogador coloca um bloco de material sob ele no meio do salto para ganhar altura.

Talvez o mais impressionante seja que a IA foi capaz de criar ferramentas de diamante (que exigiam uma longa série de ações a serem executadas em sequência), que a OpenAI descreveu como uma conquista "sem precedentes" para um agente de computador.

Um avanço na IA?

O significado do projeto Minecraft é que ele demonstra a eficácia de uma nova técnica que a OpenAI está implementando para treinar modelos de IA, chamada Video PreTraining (VPT), ​​​​que a empresa diz que pode acelerar o desenvolvimento de "agentes que usam computação geral". "

Historicamente, a dificuldade de usar vídeo bruto como fonte para treinar modelos de IA é que o que aconteceu é simples o suficiente para entender, mas não necessariamente como. Isso porque o modelo de IA absorveria os resultados desejados, mas não entenderia as combinações de entrada necessárias para alcançá-los.

Com o VPT, no entanto, o OpenAI combina um grande conjunto de dados de vídeo extraído de fontes públicas da Web com um conjunto de imagens cuidadosamente selecionadas marcadas com movimentos relevantes de teclado e mouse para estabelecer o modelo de linha de base.

Para refinar o modelo básico, a equipe incorpora conjuntos de dados menores projetados para ensinar tarefas específicas. Nesse contexto, a OpenAI usou filmagens de jogadores realizando ações iniciais do jogo, como derrubar árvores e construir mesas de trabalho, o que teria resultado em uma "grande melhoria" na confiabilidade com a qual o modelo poderia executar essas tarefas.

Outra técnica é “recompensar” o modelo de IA por concluir cada etapa de uma sequência de tarefas, prática conhecida como aprendizado por reforço. Foi esse processo que permitiu à rede neural coletar todos os ingredientes para uma picareta de diamante com uma taxa de sucesso de nível humano.

"O VPT abre caminho para que os agentes aprendam a agir assistindo a um grande número de vídeos na Internet. Em comparação com a modelagem de vídeo generativa ou métodos contrastivos que produziriam apenas fundos representacionais, o VPT oferece a possibilidade empolgante de 'aprender diretamente com antecedentes comportamentais dos vídeos em mais áreas do que apenas linguagem”, explicou OpenAI em uma postagem no blog (abre em uma nova guia).

"Embora estejamos apenas experimentando no Minecraft, o jogo é muito aberto e a interface humana nativa (mouse e teclado) é muito genérica, então achamos que nossos resultados são um bom presságio para outras áreas semelhantes, por exemplo, usando um computador." .

Para estimular novas experimentações no espaço, a OpenAI fez parceria com a competição MineRL NeurIPS, doando seus dados de negócios e código de modelo para concorrentes que tentam usar a IA para resolver complexos de Minecraft. O grande prêmio: € 100,000.