Pakar OpenAI melatih jaringan saraf untuk memainkan Minecraft pada level setinggi pemain manusia.

Jaringan saraf dilatih pada 70 jam rekaman dalam game yang beragam, dilengkapi dengan database kecil video di mana kontraktor melakukan tugas dalam game tertentu, dan input keyboard dan mouse juga direkam.

Setelah penyesuaian, OpenAI menemukan bahwa model tersebut mampu melakukan semua jenis kemampuan kompleks, mulai dari berenang hingga berburu hewan dan memakan dagingnya. Dia juga mengambil "lompatan pilar", sebuah langkah di mana pemain menempatkan balok material di bawahnya di tengah lompatan untuk menambah tinggi badan.

Mungkin yang paling mengesankan, AI mampu menciptakan alat berlian (yang membutuhkan serangkaian tindakan panjang untuk dilakukan secara berurutan), yang digambarkan OpenAI sebagai pencapaian "belum pernah terjadi sebelumnya" untuk agen komputasi.

Sebuah terobosan dalam AI?

Pentingnya proyek Minecraft adalah menunjukkan keefektifan teknik baru yang diterapkan OpenAI untuk melatih model AI, yang disebut Video PreTraining (VPT), ​​yang menurut perusahaan dapat mempercepat pengembangan "agen yang menggunakan komputer umum". ."

Secara historis, kesulitan menggunakan video mentah sebagai sumber untuk melatih model AI adalah bahwa apa yang terjadi cukup sederhana untuk dipahami, tetapi belum tentu caranya. Ini karena model AI akan menyerap hasil yang diinginkan, tetapi tidak memahami kombinasi input yang diperlukan untuk mencapainya.

Namun, dengan VPT, OpenAI menggabungkan kumpulan data video besar yang diambil dari sumber web publik dengan serangkaian gambar yang dipilih dengan cermat yang ditandai dengan gerakan keyboard dan mouse yang relevan untuk menetapkan model dasar.

Untuk menyempurnakan model dasar, tim menggabungkan kumpulan data yang lebih kecil yang dirancang untuk mengajarkan tugas-tugas tertentu. Dalam konteks ini, OpenAI menggunakan gambar pemain yang melakukan aksi permainan awal, seperti menebang pohon dan membangun meja kerajinan, yang akan menghasilkan "peningkatan besar" dalam keandalan model yang dapat melakukan tugas ini.

Teknik lain adalah "menghargai" model AI untuk menyelesaikan setiap langkah dalam urutan tugas, sebuah praktik yang dikenal sebagai pembelajaran penguatan. Proses inilah yang memungkinkan jaringan saraf untuk mengumpulkan semua bahan untuk beliung berlian dengan tingkat keberhasilan tingkat manusia.

“VPT membuka jalan bagi agen untuk belajar bagaimana bertindak dengan menonton sejumlah besar video di Internet. Dibandingkan dengan pemodelan video generatif atau metode kontrastif yang hanya akan menghasilkan latar belakang representasional, VPT menawarkan kemungkinan menarik untuk 'belajar langsung dari video skala besar'. anteseden perilaku di lebih banyak area daripada hanya bahasa, ”jelas OpenAI dalam posting blog (terbuka di tab baru).

“Meskipun kami hanya bereksperimen di Minecraft, gim ini sangat terbuka dan antarmuka manusia asli (mouse dan keyboard) sangat umum, jadi kami pikir hasil kami menjadi pertanda baik untuk area serupa lainnya, misalnya menggunakan komputer” .

Untuk memacu eksperimen baru di ruang angkasa, OpenAI telah bermitra dengan kompetisi MineRL NeurIPS, menyumbangkan data bisnis dan kode modelnya kepada kontestan yang mencoba menggunakan AI untuk memecahkan kompleks Minecraft. Hadiah utama: € 100,000.

Bagikan ini