Google se burló de las gafas de traducción en la conferencia de desarrolladores de Google I/O de la semana pasada, prometiendo que algún día podrá hablar con alguien que hable un idioma extranjero y ver la traducción al inglés en sus gafas.

Los ejecutivos de la empresa mostraron las gafas en un video; no solo mostró «subtítulos ocultos» (texto en tiempo real que deletrea en el mismo idioma lo que dice otra persona), sino también traducción de y hacia inglés y mandarín o español, lo que permite a las personas que hablan dos idiomas diferentes mantener una conversación. al mismo tiempo que permite a los usuarios con problemas de audición ver lo que otros les están diciendo.

Como hardware de Google Translate, las gafas resolverían un problema importante con el uso de Google Translate, que es: si usa la traducción de audio, la traducción de audio interfiere en la conversación en tiempo real. Al presentar la traducción de forma visual, podría seguir las conversaciones con mucha más facilidad y naturalidad.

A diferencia de Google Glass, el prototipo de gafas de traducción también es realidad aumentada (AR). Déjame explicarte lo que quiero decir.

La realidad aumentada ocurre cuando un dispositivo captura datos del mundo y, en función de su reconocimiento del significado de esos datos, les agrega información que está disponible para el usuario.

Google Glass no era realidad aumentada, era una pantalla de visualización frontal. La única conciencia contextual o ambiental con la que podía lidiar era la ubicación. Dependiendo de la ubicación, puede dar instrucciones paso a paso o recordatorios basados ​​en la ubicación. Pero normalmente no podría recopilar datos visuales o de audio y luego enviar información al usuario sobre lo que estaba viendo o escuchando.

Las gafas de traducción de Google son, en efecto, AR al tomar datos de audio del entorno y enviar al usuario una transcripción de lo que se dice en el idioma de su elección.

Los miembros del público y la prensa técnica han informado que la función de traducción es la aplicación exclusiva de estas gafas sin ninguna exploración analítica o crítica, hasta donde yo sé. El hecho más evidente que debería haberse mencionado en cada informe es que la traducción es solo una elección arbitraria para el procesamiento de audio en la nube. ¡Hay muchas más gafas que podrían hacer!

Podrían procesar fácilmente cualquier audio para cualquier aplicación y devolver cualquier texto o audio para que el usuario lo consuma. ¿No es obvio?

En realidad, el hardware envía ruido a la nube y muestra el texto devuelto por la nube. Eso es todo lo que hacen las gafas. Enviar ruido. Recibir y mostrar texto.

Las aplicaciones para el procesamiento de audio y la retroalimentación contextualmente procesable o informativa son prácticamente ilimitadas. Las gafas podrían enviar cualquier ruido y luego mostrar cualquier texto devuelto por la aplicación remota.

El ruido podría incluso estar codificado, como un módem antiguo. Un dispositivo que genere ruido o una aplicación de teléfono inteligente podría enviar pitidos y silbidos similares a los de R2D2, que podrían procesarse en la nube como un código QR de audio que, cuando lo interpreten los servidores, podría devolver cualquier información para que se muestre en las gafas. Este texto podría ser instrucciones para el funcionamiento del equipo. Puede ser información sobre un artefacto específico en un museo. Puede ser información sobre un producto específico en una tienda.

Estos son los tipos de aplicaciones que esperamos para AR visual en cinco años o más. Mientras tanto, la mayor parte podría hacerse con audio.

Un uso obviamente poderoso de las «Gafas de traducción» de Google sería usarlos con el Asistente de Google. Sería como usar una pantalla inteligente con el Asistente de Google, un electrodoméstico que proporciona datos visuales, así como datos de audio normales, a partir de las solicitudes del Asistente de Google. Pero esos datos visuales estarían disponibles en sus anteojos, manos libres, dondequiera que esté. (Esa sería una aplicación de visualización de avisos, en lugar de AR).

Pero imagine si las «gafas de traducción» estuvieran emparejadas con un teléfono inteligente. Con el permiso otorgado por otros, las transmisiones Bluetooth de datos de contacto podrían mostrar (en las gafas) con quién está hablando en un evento de trabajo, así como su historial con ellos.

Por qué la prensa tecnológica rompió Google Glass

Los revisores de Google Glass criticaron el producto, principalmente por dos razones. Primero, una cámara frontal montada en el casco hizo que la gente se sintiera incómoda. Si estabas hablando con un usuario de Google Glass, la cámara apuntaba directamente hacia ti, lo que te hizo preguntarte si estabas grabado. (Google no dijo si sus «Gafas de traducción» tendrían una cámara, pero el prototipo no).

En segundo lugar, el material excesivo y visible hacía que los usuarios parecieran cyborgs.

La combinación de estas dos transgresiones materiales ha llevado a los críticos a argumentar que Google Glass simplemente no es socialmente aceptable en buena compañía.

Las «Gafas de traducción» de Google, por otro lado, no tienen cámara y no se ven como implantes de cyborg, se parecen mucho a las gafas normales. Y el texto visible para el usuario no es visible para la persona con la que está hablando. Parece que están haciendo contacto visual.

El único punto restante de inaceptabilidad social para el material de las «gafas de traducción» de Google es el hecho de que Google esencialmente «grabaría» las palabras de otras personas sin permiso, las subiría a la nube para traducirlas y, presumiblemente, conservaría esos registros como lo hizo con otras voces. Productos relacionados.

Aún así, la cuestión es que la realidad aumentada e incluso las pantallas de visualización frontal son súper convincentes, si los fabricantes pueden obtener el conjunto correcto de funciones. Un día tendremos AR visual completo en anteojos comunes. Mientras tanto, unas buenas gafas AR tendrían las siguientes características:

  • Parecen vasos ordinarios.
  • Pueden aceptar lentes correctivos.
  • No tienen cámara.
  • Procesan audio con IA y devuelven datos a través de texto.
  • y ofrecen funcionalidad auxiliar, devolviendo resultados con texto.
  • Hasta la fecha, tal producto no existe. Pero Google ha demostrado que tiene la tecnología para hacerlo.

    Si bien los subtítulos y la traducción de idiomas pueden ser la característica más atractiva, es, o debería ser, solo un caballo de Troya para muchas otras aplicaciones comerciales atractivas.

    Google no ha anunciado cuándo, o incluso si, las «Gafas de traducción» se enviarán como un producto comercial. Pero si Google no los hace, alguien más lo hará, y eso resultará ser el asesino de la categoría para los usuarios comerciales.

    La capacidad de las gafas regulares para darle acceso a los resultados visuales de la interpretación de la IA de quién y qué escucha, así como los resultados visuales y de audio de las consultas del asistente, sería un cambio de juego.

    Estamos en un momento difícil en el desarrollo de la tecnología donde las aplicaciones AR existen principalmente como aplicaciones para teléfonos inteligentes (donde no pertenecen) mientras esperamos anteojos AR móviles y socialmente aceptables que están a muchos años de distancia.

    Mientras tanto, la solución es clara: necesitamos gafas AR centradas en audio que capturen sonido y muestren palabras.

    Esto es exactamente lo que Google ha demostrado.

    Derechos de autor © 2022 IDG Communications, Inc.

    Share This