Google presenta SignGemma, un nuevo modelo para facilitar la comprensión de la lengua de signos

Guardar

Google ha presentado un nuevo modelo de código abierto de la familia Gemma desarrollado para traducir la lengua de signos a texto directamente en el dispositivo.

SignGemma es un modelo desarrollado por Google DeepMind para facilitar la comprensión de la lengua de signos, empezando con la lengua de signos estadounidense (ASL, por sus siglas en inglés) y el inglés.

Para ello, Google explica que lo ha entrenado con más de 10.000 horas de vídeo en ASL anotado, junto con transcripciones en inglés, y asegura también habrá más adelante compatibilidad con otros lenguajes de signos.

Forma parte de la familia de modelos de código abierto Gemma, y se basa en el marco de trabajo de Gemini Nano, que está optimizado para ejecutar la IA multimodal en el dispositivo, lo que permite que también pueda trabajar sin conexión a internet.

También utiliza un transformador de visión para detectar y procesar el movimiento de las manos y los labios, con el objetivo de realizar una traducción directamente en el dispositivo de la lengua de signos a texto, sintetizando el discurso"con un retraso mínimo", para poder seguirlo en tiempo real.

SignGemma se mostró durante el evento Google I/O 2025 y está actualmente en pruebas, en una fase de vista previa que Google dirige a desarrolladores e investigadores y a la comunidad global de personas sordas o con dificultades auditivas.

Recientemente, Google presentó DolphinGemma, una versión de sus modelos ligeros y abiertos desarrollada específicamente para analizar los sonidos que emiten los delfines e identificar patrones y estructuras que allanen el camino a la comprensión entre especies.