
Los sistemas de texto a voz avanzados alcanzaron tal nivel de realismo que hoy basta con unos segundos de grabación para que una inteligencia artificial reproduzca el timbre y los matices de cualquier persona. “Cualquier voz puede ser reproducida o copiada con solo unos segundos de grabación”, advirtió Jong Hwan Ko en declaraciones a MIT Technology Review. Esta facilidad incrementó los casos de fraude, suplantación y acoso, intensificando la preocupación pública ante el uso indebido de voces clonadas.
Ko y su equipo identificaron la urgencia de contar con mecanismos que permitan a las personas proteger su identidad. “La gente empieza a exigir formas de excluirse de la generación no autorizada de sus voces”, señaló el investigador.
“Machine unlearning”: una nueva estrategia ante los límites de la IA
Hasta ahora, las compañías tecnológicas intentaron blindar sus herramientas mediante barreras de seguridad, conocidas como guardrails, pero estas soluciones presentan vulnerabilidades. Jinju Kim explicó: “No se puede atravesar la valla, pero algunos intentarán pasar por debajo o por encima”.
El “machine unlearning” propone un enfoque distinto: elimina directamente la información sensible, haciendo que el modelo actúe como si nunca la hubiera procesado. “El unlearning intenta eliminar los datos problemáticos, de modo que no haya nada detrás de la valla”, remarcó Kim.
El reto principal radica en que los modelos “zero-shot” pueden aprender a imitar nuevas voces simplemente con una grabación. Por eso, el método debe evitar que el sistema imite voces prohibidas, incluso cuando reciba muestras inéditas, sin sacrificar la precisión en la generación de otras voces.

Pruebas con VoiceBox: resultados, implicaciones y límites conocidos
El equipo coreano utilizó una recreación de VoiceBox, desarrollado por Meta, para validar la técnica. El sistema fue entrenado para generar una voz aleatoria ante intentos de imitar una voz suprimida. La similitud con las voces originales disminuyó más de un 75%, según los análisis.
El procedimiento, sin embargo, redujo en un 2,8% la capacidad del modelo para imitar voces autorizadas, señalando la dificultad de equilibrar privacidad y rendimiento.
El proceso de “olvido” requiere varios días y una muestra de audio de cinco minutos por cada voz que se desea eliminar. Los datos originales son reemplazados por información aleatoria, impidiendo su recuperación o reconstrucción posterior.
Voces expertas: alcances y desafíos para el “unlearning” vocal
La comunidad tecnológica y científica recibió con interés el trabajo. Vaidehi Patil, doctoranda en la Universidad de Carolina del Norte en Chapel Hill, recalcó en MIT Technology Review que este avance supone una de las primeras aplicaciones reales del “machine unlearning” en voz artificial. Patil, que lidera un taller sobre la temática, recordó la necesidad de equilibrio: “Hay que sacrificar algo”.
Ko reconoce que la técnica no está lista para el despliegue comercial masivo, aunque la demanda por soluciones de este tipo aumenta. Patil — actualmente en Google DeepMind — destacó la cautela de Meta antes de lanzar VoiceBox al público, precisamente por los riesgos asociados al uso indebido del producto.

Futuro y perspectivas de la protección vocal en inteligencia artificial
La industria observa cada avance en “machine unlearning” con altas expectativas de integrarlo en aplicaciones reales y escalables. Ko y su equipo continúan perfeccionando sus métodos con ese objetivo.
Según MIT Technology Review, la creciente exigencia de control sobre los datos biométricos podría establecer esta tecnología como un estándar de seguridad frente a los deepfakes de audio y la clonación de voces.
El desarrollo encabezado por Ko y Kim simboliza un paso decisivo hacia una inteligencia artificial capaz de proteger la privacidad, donde borrar información será tan relevante como aprenderla.
Últimas Noticias
Nunca respondas una llamada o WhatsApp de números que tengan estos prefijos: son estafas
El uso de códigos internacionales y sistemas de tarificación especial permite a los ciberdelincuentes obtener ingresos ilícitos y acceder a información sensible

Google lanza la mejor opción para tener un viaje bueno, bonito y barato: Ofertas de vuelo y gratis
La función ha comenzado a implementarse en más de 200 países, entre ellos México, Brasil, Colombia y Argentina

Las redes sociales desplazaron al correo electrónico como la principal fuente de estafas a nivel global
Plataformas como WhatsApp, Instagram y TikTok se han convertido en los canales más usados por los ciberdelincuentes para cometer fraudes en línea. Asimismo, crece la preocupación por los deepfakes

El avance de las tecnologías que podrían poner fin a las pruebas con animales genera expectativa en la ciencia
El surgimiento de innovaciones como órganos en chips, modelos digitales y el uso de inteligencia artificial abre un nuevo capítulo en la investigación biomédica, impulsando cambios en políticas globales y planteando nuevas perspectivas éticas y científicas

Salón del Automóvil 2025: la tecnología de los vehículos todoterreno para recorrer pantanos, rocas y otros terrenos complejos
Nuevas funciones digitales, modos de tracción inteligentes y asistencia electrónica en la dirección transforman la oferta de modelos en este segmento, aptos para el trabajo y el turismo



