Auriculares AI M2: Traducción instantánea para varios hablantes

Los auriculares inalámbricos siempre han ofrecido Pixel Buds De la función de Google Traducción instantánea asombroso. En los últimos años, marcas como Timkettle han ofrecido auriculares similares para clientes comerciales. Sin embargo, todas estas soluciones sólo pueden gestionar una transmisión de audio a la vez para su traducción.

Investigadores de la Universidad de Washington (UW) han desarrollado algo verdaderamente notable en forma de auriculares potenciados por inteligencia artificial que pueden traducir la voz de varios hablantes a la vez. Imagínense una persona multilingüe en un bar lleno de gente, capaz de entender el habla de las personas que la rodean, que hablan idiomas diferentes simultáneamente. Esta innovación representa un salto cuántico en la tecnología de traducción simultánea.

El equipo se refiere a su innovación como “Traducción espacial del habla” y se logra utilizando auriculares binaurales. Para aquellos que no están familiarizados, la tecnología de audio binaural intenta simular los efectos de sonido exactamente como los oídos humanos los escuchan naturalmente. Para grabarlo se colocan micrófonos en la cabeza de un maniquí, separados por la misma distancia que oídos humanos en cada lado. Esta tecnología se basa en la grabación de audio de dos fuentes diferentes para crear una experiencia auditiva en 3D.

Este enfoque es crucial porque nuestros oídos no sólo escuchan el sonido, sino que también nos ayudan a medir la dirección de su fuente. El objetivo general es producir un escenario sonoro natural con un efecto estéreo que pueda brindar una sensación animada, similar a la de un concierto. O, en el contexto moderno, la escucha espacial. Esta tecnología mejora la experiencia del usuario al proporcionar un sonido envolvente realista.

Este trabajo es cortesía de un equipo dirigido por el profesor Shyam Gollakota, cuya trayectoria incluye aplicaciones que pueden incorporar GPS submarino a relojes inteligentes, transformar escarabajos en fotógrafos, implantes cerebrales que pueden interactuar con dispositivos electrónicos, una aplicación móvil que puede detectar infecciones y Plus. Estos logros destacan la experiencia del profesor Gollakota en tecnología innovadora.

¿Cómo funciona la traducción entre varios hablantes?

“Por primera vez, conservamos la voz de cada persona y la dirección de donde provenía”, explica Golkota, actual profesor de la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen del instituto.

El equipo compara su tecnología con un radar, que comienza identificando el número de hablantes en el área circundante y actualiza ese número en tiempo real a medida que las personas entran y salen del rango de escucha. Este enfoque se basa completamente en el dispositivo y no implica enviar transmisiones de voz del usuario a un servidor en la nube para su traducción. ¡Oh, privacidad!

Además de traducir el discurso, el grupo también mantiene “las cualidades expresivas y el volumen de la voz de cada hablante”. Además, se realizan ajustes de dirección y volumen a medida que el altavoz se mueve por la habitación. Curiosamente, también se dice que Apple está desarrollando Un sistema que permite que los AirPods traduzcan la voz en tiempo real.

¿Cómo se consigue la traducción instantánea con inteligencia artificial?

El equipo de la Universidad de Washington (UW) probó las capacidades de traducción de auriculares inteligentes impulsados por IA en casi una docena de ubicaciones interiores y exteriores. En términos de rendimiento, el sistema puede recibir, procesar y producir el audio traducido en 12 a 2 segundos. Los participantes de la prueba parecen preferir un retraso de 4 a 3 segundos, pero el equipo está trabajando para acelerar el proceso de traducción.

Hasta ahora, el equipo solo ha probado traducciones al español, alemán y francés, pero esperan añadir Plus a la suite. Técnicamente, han condensado la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la entrega binaural en una sola secuencia, una hazaña impresionante. Esta integración de tecnologías avanzadas representa un avance espectacular en el campo de la traducción simultánea.

Para el sistema, el equipo desarrolló un modelo de traducción de voz capaz de ejecutarse en tiempo real en el chip Apple M2, logrando inferencia en tiempo real. Las funciones de audio estuvieron a cargo de un par de auriculares con cancelación de ruido Sony WH-1000XM4 y un micrófono USB binaural Sonic Presence SP15C.

Y aquí está la mejor parte. “El código de la máquina de prueba de concepto está disponible para que otros puedan desarrollarlo”, afirma el comunicado de prensa de la fundación. Esto significa que la comunidad científica y la comunidad de software de código abierto pueden aprender y desarrollar proyectos más avanzados basados en las bases establecidas por el equipo de la UW. Esto abre la puerta a futuros desarrollos en tecnología de traducción utilizando inteligencia artificial.