Meta e um grupo de pesquisadores da Universidade do Texas em Austin (UT Austin) estão trabalhando para trazer um som realista ao Metaverso.

Como explica Kristen Garuman, diretora de pesquisa da Meta AI (abre em uma nova guia), realidade aumentada e virtual (AR e VR, respectivamente) não são apenas visuais. O áudio desempenha um papel muito importante em fazer um mundo ganhar vida. Garuman diz que “o áudio é moldado pelo ambiente em que está. Existem vários fatores que influenciam como o som se comporta, como a geometria de uma sala, o que há nessa sala e a distância que uma pessoa está de uma fonte.

Para conseguir isso, o plano da Meta é usar óculos AR para gravar áudio e vídeo de um único local e, em seguida, usar um conjunto de três modelos de IA para transformar e limpar a gravação para que pareça que está acontecendo na sua frente quando você a reproduz. voltar. jogar. Em casa. Os AIs levarão em conta a sala em que você está para combinar com o ambiente.

Olhando para os projetos, parece que a Meta está se concentrando em óculos AR. O plano da Meta para fones de ouvido VR inclui reproduzir as imagens e sons de um ambiente, como um show, para que você sinta que está lá pessoalmente.

Perguntamos ao Meta como as pessoas podem ouvir áudio aprimorado. As pessoas precisarão de um par de fones de ouvido para ouvir ou virão de fones de ouvido? Não recebemos resposta.

Também perguntamos ao Meta como os desenvolvedores podem colocar as mãos nesses modelos de IA. Eles foram feitos de código aberto para que desenvolvedores externos pudessem trabalhar na tecnologia, mas a Meta não forneceu mais detalhes.

Transformado por IA

A questão é como o Meta pode gravar áudio em um par de óculos AR e refletir uma nova configuração.

A primeira solução é conhecida como AViTAR, que é um "Modelo de correspondência acústica visual". (abre em uma nova aba) Essa é a IA que transforma o áudio para combinar com um novo ambiente. Meta dá o exemplo de uma mãe gravando o recital de dança de seu filho em um auditório com um par de óculos AR.

Um dos pesquisadores afirma que a mãe em questão pode pegar essa gravação e reproduzi-la em casa onde a IA transformará o áudio. Ele examinará o ambiente, levará em conta quaisquer obstáculos em uma sala e fará com que o recital soe como se estivesse acontecendo bem na frente dela com os mesmos óculos. O investigador afirma que o som virá dos óculos.

Para ajudar a limpar o áudio, há um dereverb informado visualmente (abre em uma nova guia). Basicamente, ele remove a reverberação do clipe. O exemplo dado é gravar um concerto de violino em uma estação de trem, levar para casa e fazer com que a IA limpe o clipe para que você só ouça música.

O modelo de IA mais recente é o VisualVoice (abre em uma nova guia), que usa uma combinação de dicas visuais e de áudio para separar vozes de outros ruídos. Imagine que você está gravando um vídeo de duas pessoas discutindo. Essa IA isolará uma voz para que você possa entendê-la enquanto silencia todo o resto. Meta explica que as dicas visuais são importantes porque a IA precisa ver quem está falando para entender certas nuances e saber quem está falando.

Quanto aos recursos visuais, a Meta afirma que planeja incorporar vídeo e outras sugestões para aprimorar ainda mais o áudio orientado por IA. Como essa tecnologia ainda está nos estágios iniciais de desenvolvimento, não está claro se e quando o Meta trará essas IAs para um headset Quest perto de você.

Certifique-se de ler nossa última análise do Oculus Quest 2 se estiver pensando em comprar um. Alerta de spoiler: nós gostamos.

Compartilhe Este