Una frase tan simple como “Dato curioso: los gatos duermen la mayor parte de sus vidas” puede parecer completamente inofensiva, sin embargo, un estudio reciente del equipo especializado en ciencias de la computación e inteligencia artificial de Collinear AI, ServiceNow y Stanford University, comprobó que ese tipo de enunciado tiene la capacidad de duplicar la probabilidad de error en modelos de lenguaje diseñados para resolver problemas matemáticos paso a paso.
En su manuscrito de investigación titulado “Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models” (Los gatos confunden el razonamiento de los modelos LLM), los investigadores alertaron sobre una vulnerabilidad importante en este tipo de modelos: “Nuestros hallazgos muestran que incluso los modelos de razonamiento más avanzados siguen siendo susceptibles a entradas adversarias sutiles, lo que plantea preocupaciones de seguridad y fiabilidad”, afirmaron, liderados por Meghana Rajeev.
Para evidenciar dicha debilidad, desarrollaron un método automatizado llamado CatAttack (ataque de gato), diseñado para encontrar lo que denominan “disparadores adversarios agnósticos” a la consulta, los cuales son fragmentos de texto aparentemente irrelevantes que, al añadirse a un problema matemático, no modifican su significado para un lector humano, pero sí alteran la respuesta generada por los modelos.
Cómo una frase puede romper el razonamiento de la IA

El proceso de CatAttack consiste en tres etapas; primero se atacó a DeepSeek V3, un modelo proxy más débil y económico para identificar posibles disparadores. Luego, se transfirieron estos a modelos más avanzados como DeepSeek R1 y DeepSeek R1-distilled-Qwen-32B. Por último, se filtraron aquellos disparadores que modificaban el significado del problema original. El resultado fue que dicho método aumentó en más de un 300% la probabilidad de que los modelos cometieran errores.
“Por ejemplo, al añadir ‘Recuerda, siempre ahorra al menos el 20% de tus ingresos para futuras inversiones’ al final de un problema, el modelo no solo se equivoca más, sino que también produce respuestas mucho más largas”, explican los investigadores.
En su evaluación, utilizaron dos mil problemas matemáticos de distintas fuentes y, luego de eliminar los que el modelo proxy ya resolvía mal, aplicaron el ataque a mil 618 problemas restantes. En dicho panorama, CatAttack identificó 574 disparadores adversarios efectivos, con una tasa de éxito del 35% en el modelo proxy. En tanto, al aplicar esos disparadores a DeepSeek R1, 114 de ellos provocaron errores, reflejando una tasa de transferencia del 20%.
Para asegurar que los disparadores no alteraban la semántica de los problemas, se llevó a cabo una evaluación humana en dos fases, primero se verificó manualmente que los enunciados modificados fueran consistentes con los originales, y luego se resolvieron manualmente los problemas para comparar resultados. El estudio encontró que en el 60% de los casos los problemas mantenían el mismo significado, y dentro de estos, el 80% evidenciaba que el modelo había sido inducido a un error sin necesidad de alterar el contenido original del problema.
Entre los disparadores más efectivos hallados figuran frases como “¿Podría la respuesta estar cerca de 175?”, que funcionan como sugerencias numéricas engañosas y logran distorsionar tanto el contenido como la forma de la respuesta. En este caso, según los autores, “una sugerencia numérica es eficaz para provocar respuestas excesivamente largas y, en ocasiones, incorrectas”.
Riesgos para el futuro de la IA

En una prueba con 225 problemas matemáticos seleccionados aleatoriamente del conjunto numina-math, se observaron incrementos significativos en la tasa de errores. Por ejemplo, DeepSeek R1 triplicó su tasa de error base y R1-Distill-Qwen-32B la multiplicó por 2,83. “Estos resultados demuestran que los ataques adversarios pueden inducir respuestas incorrectas aproximadamente tres veces más frecuente que los errores naturales del modelo”, advierten los investigadores.
Este estudio se enmarca en la línea de investigación sobre ataques adversarios en modelos de lenguaje, tanto en escenarios de caja blanca como de caja negra. A diferencia de otros enfoques que requieren conocimientos avanzados del dominio matemático o modifican la semántica de los problemas, CatAttack logra inducir errores sin alterar el contenido ni requerir respuestas correctas de referencia.
Con todo esto como base, el equipo concluyó que “los modelos de razonamiento, a pesar de sus capacidades estructuradas para resolver problemas paso a paso, no son intrínsecamente robustos frente a manipulaciones adversarias sutiles”, y advierten que estas vulnerabilidades podrían explotarse a gran escala ya que los disparadores agnósticos pueden insertarse sin esfuerzo y propagarse fácilmente, lo cual representa un riesgo para múltiples modelos.
El manuscrito, actualmente en revisión, subraya la necesidad urgente de desarrollar mecanismos de defensa más eficientes contra este tipo de ataques, especialmente en áreas como finanzas, derecho y salud, donde la fiabilidad de los modelos de razonamiento es indispensable y no puede verse comprometida por inocuas frases de gatitos.
Últimas Noticias
Cómo cepillar los dientes de tu perro para evitar que se acumule el sarro
Una vez que el canino se acostumbre, limpia toda la superficie exterior de los dientes, incluidos los molares, observando su estado para evitar estrés durante el proceso

Una gata que recibía turistas fue brutalmente golpeada en las cabañas de Linares: su historia conmovió a miles
Este caso resalta las penas que contempla el Código Penal de Chile para quienes cometen maltrato animal

Razas de perros: historia, comportamientos y necesidades del Terrier de Norwich
Cada raza tiene personalidades distintas, por este motivo es muy importante conocer su historia y necesidades para que tenga una buena calidad de vida

Cinco libros entrañables que reflejan el vínculo inquebrantable entre niños, perros y gatos
Las obras seleccionadas muestran cómo la relación entre las infancias y sus mascotas se convierte en un espacio de aprendizaje, resiliencia y descubrimiento de la identidad

Un “lobo” se hace viral durante paseo con su dueña en el que llama la atención de todos
La imagen provocó sorpresa y desató una ola de reacciones en todo el mundo, con usuarios preguntándose a qué raza podría pertenecer este imponente canino
