
Un desarrollo recientemente presentado en la conferencia ACM CHI en Yokohama (Japón) promete alterar radicalmente la manera en que las personas interactúan en entornos multilingües. Frente al surgimiento de esta nueva tecnología, el MIT Technology Review dio a conocer detalles.
Se trata de Spatial Speech Translation, un sistema de traducción simultánea basado en inteligencia artificial que permite a los usuarios de auriculares identificar y comprender lo que dicen varias personas a la vez, incluso cuando hablan en diferentes idiomas.
Diseñado para usarse con auriculares convencionales con cancelación de ruido, este sistema no solo traduce, sino que reproduce la voz traducida con un timbre y dirección espacial que imita a la persona original, generando una experiencia conversacional más natural y contextualizada.

Sistema contra la barrera del idioma en grupo
El objetivo de Spatial Speech Translation es abordar uno de los retos más complejos para los sistemas automáticos de traducción: la superposición de voces en una conversación grupal.
Con este sistema, se emplea inteligencia artificial para rastrear tanto la procedencia espacial del sonido como las características individuales de cada voz, lo que permite que el usuario identifique con precisión quién habla y qué está diciendo.
La finalidad va más allá de una simple traducción simultánea. Según la descripción técnica, el modelo divide el entorno acústico del usuario en pequeñas regiones y analiza cada una de ellas para detectar posibles interlocutores.
Este reconocimiento permite generar una versión traducida de cada voz que conserva elementos clave como la dirección del sonido, el tono emocional y el timbre original, lo cual resulta en una experiencia auditiva realista.

La dimensión personal detrás del proyecto
La iniciativa tiene una raíz profundamente personal para uno de sus impulsores, el profesor Shyam Gollakota, investigador de la Universidad de Washington. En declaraciones compartidas por MIT Technology Review, Gollakota explicó: “Creemos que este sistema podría ser transformador”.
A través de un concepto humanista, se plantea que la tecnología no solo debe facilitar la comunicación, sino también brindar mayor inclusión social para quienes enfrentan barreras idiomáticas.
Más allá de los casos particulares, la propuesta apunta a reducir la ansiedad y el aislamiento que muchas personas experimentan cuando no logran participar plenamente de una conversación por desconocer el idioma.

Inteligencia artificial en dos niveles: cómo funciona
El sistema está compuesto por dos modelos interdependientes. El primero analiza el espacio sonoro a partir de una red neuronal que divide el entorno en pequeñas zonas. A partir de esa segmentación, localiza la dirección exacta desde donde provienen las voces.
Mientras que el segundo modelo procesa las voces detectadas, las traduce al inglés desde tres idiomas —francés, alemán y español— y reconstruye una versión de la voz original, replicando elementos como el tono, la amplitud y la cadencia emocional.
Lo innovador es que esta “voz clonada” mantiene un alto grado de naturalidad. En lugar de una traducción robótica, la persona que usa los auriculares escucha una versión sintetizada que emula la voz del hablante original, con una latencia de apenas unos segundos. Esta característica permite mantener una dinámica de conversación más fluida que la ofrecida por sistemas convencionales.
Diferencias con respecto a tecnologías existentes
A diferencia de otros dispositivos que incorporan traducción automática, como las gafas inteligentes de Meta, Spatial Speech Translation fue desarrollado para procesar múltiples voces al mismo tiempo. Mientras que la mayoría de los sistemas actuales se enfocan en un único interlocutor, esta propuesta busca resolver el problema real de las conversaciones grupales, en las que se superponen voces e idiomas.

Asimismo, la tecnología utiliza hardware de fácil acceso: auriculares con micrófonos incorporados y laptops equipadas con chips Apple M2, que permiten ejecutar los modelos de red neuronal necesarios. Esta compatibilidad con tecnología disponible en el mercado facilita una posible adopción a gran escala.
Desafíos y pasos por delante
Uno de los principales retos que enfrenta el equipo es reducir la latencia entre la emisión de una frase y su traducción. Actualmente, el retraso es de algunos segundos, lo cual afecta la fluidez del intercambio. “Queremos reducir significativamente esa latencia a menos de un segundo para que se mantenga el ritmo conversacional”, explicó Gollakota.
Este objetivo presenta dificultades técnicas complejas, ya que la estructura sintáctica de cada idioma incide en la velocidad de traducción. Por ejemplo, el sistema es más rápido al traducir del francés al inglés, seguido del español y luego del alemán.
Según el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, esto se debe a que el alemán suele ubicar los verbos —y por tanto gran parte del significado— al final de las oraciones.

Varios especialistas que no participaron en el desarrollo valoraron positivamente el avance. Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, destacó que el proyecto es técnicamente impresionante, aunque advirtió que para su aplicación masiva se requerirá más entrenamiento con datos reales y grabaciones en ambientes ruidosos.
Últimas Noticias
Google Nest: explora todo lo que puedes hacer en tu hogar y sin pagar de más
La integración de bocinas y pantallas de Google permite automatizar tareas, controlar dispositivos y gestionar el hogar mediante comandos de voz

Harvard crea gusanos robots que se comunican entre sí y se pueden mover por cualquier superficie
La plataforma, basada en el comportamiento de los gusanos negros de California, apunta a usos en exploración de terrenos complejos, operaciones de rescate y trabajos en ambientes de acceso restringido

Qué ahorra más: dejar el aire acondicionado encendido o apagarlo antes de salir de casa
El uso eficiente de este electrodoméstico depende del tiempo de ausencia en el hogar y del tipo de aparato instalado. Además, es clave programar temperaturas entre 24°C y 26°C para reducir el gasto y contar con tecnología inverter

¿Es ético usar inteligencia artificial para ahorrar horas de trabajo en la creación de un artículo científico?
Aplicaciones como Perplexity AI o Scite.ai optimizan la búsqueda y el análisis de literatura científica, permitiendo a los investigadores centrarse en la interpretación crítica y la construcción de marcos teóricos sólidos

Cuál es el país con más reservas de viajeros de todo el mundo para ir de vacaciones a mitad de año
Destinos ubicados en Europa y América reciben la llegada de turistas jóvenes y familias durante esta temporada, cuando las actividades académicas permanecen suspendidas, un aspecto que genera un aumento en la demanda de servicios hoteleros y tours
