Мета хоча, каб віртуальны пейзаж гучаў як рэальнае жыццё

Мета хоча, каб віртуальны пейзаж гучаў як рэальнае жыццё

Мета і група даследчыкаў з Тэхаскага ўніверсітэта ў Осціне (UT Austin) працуюць над тым, каб прынесці рэалістычны гук у Метасвет.

Як тлумачыць Крыстэн Гаруман, дырэктар па даследаваннях Meta AI (адкрыецца ў новай укладцы), дапоўненая і віртуальная рэальнасць (AR і VR, адпаведна) - гэта не толькі выявы. Аўдыё адыгрывае вялікую ролю ў ажыўленні свету. Гаруман кажа, што "аўдыё фарміруецца ў залежнасці ад навакольнага асяроддзя. Ёсць некалькі фактараў, якія ўплываюць на тое, як паводзіць сябе гук, напрыклад, геаметрыя пакоя, што знаходзіцца ў гэтым пакоі і наколькі далёка чалавек знаходзіцца ад крыніцы.

Каб дасягнуць гэтага, план Мета складаецца ў тым, каб выкарыстоўваць акуляры AR для запісу аўдыё і відэа з аднаго месца, а затым выкарыстоўваць набор з трох мадэляў AI для трансфармацыі і ачысткі запісу, каб выглядала так, быццам гэта адбываецца перад вамі, калі вы яго прайграваеце. назад. гуляць. Дома. AI будзе ўлічваць пакой, у якой вы знаходзіцеся, каб адпавядаць навакольнага асяроддзя.

Гледзячы на ​​праекты, здаецца, што Meta арыентуецца на акуляры AR. План Meta для VR-гарнітур уключае прайграванне відаў і гукаў навакольнага асяроддзя, напрыклад, канцэрта, каб вы адчувалі сябе там асабіста.

Мы спыталі Мета, як людзі могуць чуць палепшаны аўдыё. Ці спатрэбяцца людзям навушнікі, каб слухаць, ці яны будуць прыходзіць з навушнікаў? Мы не атрымалі адказу.

Мы таксама спыталі Meta, як распрацоўшчыкі могуць атрымаць у свае рукі гэтыя мадэлі AI. Яны былі зроблены з адкрытым зыходным кодам, каб староннія распрацоўшчыкі маглі працаваць над тэхналогіяй, але Meta не дала ніякіх падрабязнасцей.

Ператвораны ШІ

Пытанне ў тым, як Meta можа запісваць аўдыё на пару ачкоў AR і каб ён адлюстроўваў новую наладу.

Першае рашэнне вядома як AViTAR, што з'яўляецца «мадэллю акустычнага візуальнага супастаўлення». (адкрываецца ў новай укладцы) Гэта штучны інтэлект, які трансфармуе аўдыя ў адпаведнасці з новым асяроддзем. Мета прыводзіць прыклад маці, якая запісвае танцавальны канцэрт свайго сына ў глядзельнай зале з парай AR-акуляраў.

Адзін з даследчыкаў сцвярджае, што маці, пра якую ідзе гаворка, можа ўзяць гэты запіс і прайграць яго дома, дзе ІІ будзе трансфармаваць аўдыё. Ён будзе сканаваць навакольнае асяроддзе, улічваць любыя перашкоды ў пакоі, і рабіць канцэрт гучаць так, быццам гэта адбываецца прама перад ёй у тых жа акулярах. Сьледчы сцвярджае, што гук будзе ісці ад акуляраў.

Каб ачысціць аўдыё, ёсць візуальная дэвербацыя (адкрываецца ў новай укладцы). Па сутнасці, ён выдаляе адцягвае рэверберацыю з кліпа. Прыведзены прыклад: запісаць канцэрт на скрыпцы на вакзале, забраць яго дадому і прымусіць AI ачысціць кліп, каб вы чулі толькі музыку.

Апошняя мадэль AI - VisualVoice (адкрываецца ў новай укладцы), якая выкарыстоўвае камбінацыю візуальных і гукавых сігналаў для аддзялення галасоў ад іншых шумоў. Уявіце, што вы запісваеце відэа, на якім спрачаюцца два чалавекі. Гэты AI будзе ізаляваць голас, каб вы маглі разумець яго, адключаючы ўсё астатняе. Мета тлумачыць, што візуальныя сігналы важныя, таму што ІІ павінен бачыць, хто гаворыць, каб зразумець пэўныя нюансы і ведаць, хто гаворыць.

Што тычыцца візуальных элементаў, Meta заяўляе, што яны плануюць уключыць відэа і іншыя сігналы для далейшага паляпшэння аўдыё, кіраванага штучным інтэлектам. Паколькі гэтая тэхналогія ўсё яшчэ знаходзіцца на пачатковай стадыі распрацоўкі, незразумела, калі і калі Meta прынясе гэтыя AI ў гарнітуру Quest побач з вамі.

Абавязкова прачытайце наш апошні агляд Oculus Quest 2, калі вы падумваеце набыць яго. Спойлер: нам падабаецца.