OpenAI eksperdid koolitasid närvivõrku, et mängida Minecrafti sama kõrgel tasemel kui inimmängijatel.

Närvivõrku treeniti 70 000 tunni jooksul mitmekesist mängusisest materjali, millele lisandus väike videote andmebaas, milles töövõtjad täitsid konkreetseid mängusiseseid ülesandeid ning salvestati ka klaviatuuri ja hiire sisendid.

Pärast kohandamist leidis OpenAI, et mudel on võimeline igasuguste keerukate võimete jaoks, alates ujumisest kuni loomade jahtimise ja nende liha söömiseni. Ta võttis üles ka "sambahüppe" ehk käigu, kus mängija asetab kõrguse saamiseks nende alla keset hüpet materjaliploki.

Võib-olla kõige muljetavaldavamalt suutis AI luua teemanttööriistu (mis nõudis pikka järjestikuste toimingute jada), mida OpenAI kirjeldas kui arvutusagendi "enneolematut" saavutust.

Läbimurre AI-s?

Minecrafti projekti tähtsus seisneb selles, et see demonstreerib uue tehnika, mida OpenAI rakendab tehisintellekti mudelite koolitamiseks, mida nimetatakse Video PreTraining (VPT), ​​tõhusust, mis ettevõtte sõnul võib kiirendada "tavalisi arvuteid kasutavate agentide" arendamist. ."

Ajalooliselt on toorvideo kasutamisel tehisintellektimudelite koolitamise allikana keeruline olnud see, et juhtunu on piisavalt lihtne, et mõista, kuid mitte tingimata, kuidas. Seda seetõttu, et AI-mudel neelab soovitud tulemused, kuid ei mõistaks nende saavutamiseks vajalikke sisendkombinatsioone.

VPT-ga ühendab OpenAI aga suure videoandmestiku, mis on võetud avalikest veebiallikatest, hoolikalt valitud piltide komplektiga, mis on märgistatud asjakohaste klaviatuuri ja hiire liigutustega, et luua lähtemudel.

Baasmudeli täpsustamiseks lisab meeskond väiksemaid andmekogumeid, mis on mõeldud konkreetsete ülesannete õpetamiseks. Selles kontekstis kasutas OpenAI pilte mängijatest, kes sooritasid varajasi mängutoiminguid, nagu puude langetamine ja meisterdamislaudade ehitamine, mille tulemuseks oleks olnud mudeli töökindluse "suur paranemine" nende ülesannete täitmisel.

Teine meetod on AI-mudeli "premeerimine" ülesannete jada iga etapi täitmise eest, mida tuntakse tugevdava õppena. See oli see protsess, mis võimaldas närvivõrgul koguda kõik koostisosad teemantkirka jaoks inimtasemel edukuse määraga.

„VPT sillutab agentidele teed Internetis suure hulga videote vaatamise kaudu tegutsemise õppimiseks. Võrreldes generatiivse videomodelleerimise või kontrastsete meetoditega, mis toodavad ainult esinduslikku tausta, pakub VPT põnevat võimalust „õppida otse suuremahulisest videost”. käitumuslikud eelkäijad rohkemates valdkondades kui ainult keel,“ selgitas OpenAI blogipostituses (avaneb uuel vahelehel).

"Kuigi me eksperimenteerime ainult Minecraftiga, on mäng väga avatud ja loomulik inimliides (hiir ja klaviatuur) on väga üldine, seega arvame, et meie tulemused on head ka muude sarnaste valdkondade jaoks, näiteks arvuti kasutamisel."

Et õhutada uusi eksperimente selles ruumis, on OpenAI teinud koostööd MineRL NeurIPS-i konkursiga, kinkides oma äriandmed ja mudelikoodi võistlejatele, kes üritavad kasutada tehisintellekti Minecrafti komplekside lahendamiseks. Peaauhind: 100,000 XNUMX €.

Share This